似乎也只有这样的一个解释才是最合理的文字转WAV音频