三者几乎是在同一时间进行文字转WAV音频