主要是这么做了可以让我们双方产生感应文字转WAV音频