他是怎么推理得出的文字转WAV音频