他说出了他推测的过程文字转WAV音频