但是多了一层的缓冲文字转WAV音频