为什么要在这个时候放弃文字转WAV音频