后面的人基本上都是站着的文字转WAV音频