然后由终端将之前拍摄的画面记录下来文字转WAV音频