至少彼此之间应该是相互的理解文字转WAV音频