便又将注意力都放在了视频上面文字转WAV音频