并且按照他的语言或者手势做出一些简单的动作文字转WAV音频