场景和场景之间很少用空镜头文字转WAV音频