因为剧场表演和镜头表演是不同的文字转WAV音频