只是能够按照相应的动作施展最基本的能力文字转WAV音频