然后通过墨枢来获取它们看到的场景来获取信息文字转WAV音频