也是必须进行场景对决文字转WAV音频