所以在两个人说完之后文字转WAV音频