一切都是通过中间人协调进行文字转WAV音频