而是作为观众文字转WAV音频