我听说好像是后者的核心部分文字转WAV音频