所以两人是相对无言文字转WAV音频