通才智能体 LEO

首个精通3D任务的具身通才智能体:感知、推理、规划、行动统统拿下

想要迈向通用人工智能,必须要构建一个能够理解人类生活的真实世界,并掌握丰富技能的具身通用智能体。今年以来,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型(Multi-modal Large Language Model)在自然语言处理、视觉理解、机器人等任务上取得了显著的成功,但这类模型都是基于二维图片文本数据训练得到,在理解三维世界和与三维世界交互方面能力欠缺。为解决这一问题,北京通用人工智能研究院联合北京大学、卡耐基梅隆大学和清华大学的研究人员提出了首个三维世
  • 1