到第二次轮到她们的镜头时文字转WAV音频