显然是将大部分注意力都放在了那边文字转WAV音频