就将所有注意力都放到了后方的薄弱处文字转WAV音频