现场应该是监控设备拍下来的文字转WAV音频