最终只能接受这样的安排文字转WAV音频