所以他们最后决定文字转WAV音频