所以两人几乎同时开口文字转WAV音频