主要是因为她镜头前的表情神态文字转WAV音频