本来以他当前的状态文字转WAV音频