他只能尽量调和文字转WAV音频