但是最终他还是开口解释了文字转WAV音频