表面上看起来主要分为两个部分文字转WAV音频