完全靠的就是肢体语言文字转WAV音频