前者是准备型+临场型二合一的演员文字转WAV音频