实则注视了经过的每一个人文字转WAV音频