可玉熙的推测大半都是正确的文字转WAV音频