最终会提出一个折中的方案文字转WAV音频