第三个阶段则是进行综合文字转WAV音频