最终出于什么原因选择了放弃文字转WAV音频