中间要经过一次又一次的沟通文字转WAV音频