出现了一些变数……但总体而言文字转WAV音频