单独拍摄的情况也是存在的文字转WAV音频