开始的时候是相互利用文字转WAV音频