因为衣裳会根据人体文字转WAV音频