切给两人每次约四秒钟的上半身镜头文字转WAV音频