他们要以凯特的表演作为参考文字转WAV音频