注意力放在了前方文字转WAV音频