捕捉边学道每一个细微动作和表情文字转WAV音频