但问题是彼此之间缺乏基础文字转WAV音频