然后进行融合炼化文字转WAV音频