实则是为监视文字转WAV音频