我们去推理了文字转WAV音频