似乎也只有这么一个解释算是比较合理的……文字转WAV音频