所以他直接忽略了文字转WAV音频