所以只能脸部发生表情和声音文字转WAV音频