如果没有这种融合能力的话文字转WAV音频