其实是在监视文字转WAV音频