在视频采集的过程中文字转WAV音频