其中的绝大多数镜头文字转WAV音频