而中间人则是开始施法文字转WAV音频