里面的人和话语都是事先录制好的文字转WAV音频