因为根本不用他自己融合文字转WAV音频