他们俩需要表演的就分为两部分文字转WAV音频