首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

想要迈向通用人工智能,必须要构建一个能够明白人类生活的真实世界,并掌握丰富技能的具身通用智能体。今年以来,以 GPT-4 (V)

想要迈向通用人工智能,必须要构建一个能够明白人类生活的真实世界,并掌握丰富技能的具身通用智能体。

今年以来,以 GPT-4 (V)[1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大谈话模型(Multi-modal Large Language Model)在自然谈话处理、视觉明白、机器人等任意上取得了显著的成功,但这类模型都是基于二维图片文本数据训练得到,在明白三维世界和与三维世界交互方面才能欠缺。

为解决这一问题,北京通用人工智能研究院联合北京大学、卡耐基梅隆大学和清华大学的研究人员提出了首个三维世界中的具身多任意多模态的通才智能体 LEO

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

论文链接:https://arxiv.org/abs/2311.12871

项目主页:https://embodied-generalist.github.io/

代码链接:https://github.com/embodied-generalist/embodied-generalist

通才智能体 LEO 以大谈话模型为基础,可以完成感知(perception)、定位(grounding)、推理(reasoning)、规划(planning)和行动执行(acting)等任意。

LEO 的三维视觉谈话明白、具身推理和行动执行才能在现实世界中有广泛的应用场景与巨大的应用价值。作为未来的家庭助理,LEO 可以与人交互,回答与场景相关的问题,例如根据用户喜好调整家居布局、帮助用户找到特定物品、为用户的各种问题提供建议。LEO 的导航才能可用于购物中心、办公楼中的智能引导,其操控才能可用于家居自动化任意,如打扫、整理或简单厨房任意,以及仓库和物流中心的物品整理和搬运。首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

研究概述

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

图 1. LEO 才能示意图

通才智能体 LEO 以 LLM 为基础,在不同任意之间采用共享的架构和权重,经由如下两个阶段训练得到:

1)三维视觉 – 谈话对齐 

2)视觉 – 谈话 – 行动指令微调。

为完成上述两阶段的训练,作家收集并生成了包括物体级别(object-level)和场景级别(scene-level)的大规模数据集,并在问答(3D QA)、描述(3D captioning)、具身推理(embodied reasoning)、具身导航(embodied navigation)、机器人操作(robotic manipulation)多个任意上展示了 LEO 杰出的才能。

该工作的主要贡献可以总结如下:

1)构建了第一个能够在三维世界中进行感知、定位、推理、规划和行动执行的具身智能体 LEO。

2)提出了高效的学习策略,将以物体为中心(object-centric)的三维表征与 LLM 连接起来,同时加入具身行动任意,在三维世界中打通视觉 – 谈话 – 行动(vision-language-action)。

3)提出了生成高质量三维视觉谈话数据的法子,构建了视觉 – 谈话 – 行动(vision-language-action)指令微调的大规模数据集。

模型介绍

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

图 2. LEO 的通用任意序列和自回归式训练目标

LEO 模型的整体设计思想围绕两个核心点:

1)在统一的框架内处理第一视角的二维图片、三维场景信息和自然谈话指令,并同时支持文本与行动的输出;

2)能够充分利用预训练谈话模型的先验信息来促进下游任意。基于上述两个原则,作家设计了如图 2 所示的模型框架,将所有的多模态(2D、3D、text)输入都对齐到 LLM 的文本空间。

其中,作家利用 PointNet++ 提取出场景点云中物体级别的特征,随后用空间编码器(Spatial Transformer)对空间位置关系进行建模,从而得到三维场景级别(scene-level)的特征。输入中的二维图像则经过预训练模型 OpenCLIP ConvNext 处理得到第一视角的视觉特征。二维和三维的视觉特征最后分别经过 projector 映射到文本空间中。

具体过程如图 3 所示。

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

图 3. 图片和三维场景特征提取示意图

LLM 方面,作家采用 Vicuna-7B 作为预训练谈话模型来处理 token 序列,训练中,利用 LoRA 法子来微调 LLM,训练目标如图 2 中所示。

数据集

数据集概况

根据两阶段的训练策略,作家分别收集了相应的数据,其整体概况如图 4 所示。数据集涵盖了大规模的三维物体数据,如 Objaverse,以及三维场景数据集,如 ScanNet、3RScan、Matterport3D 等,还包括了机器人操作相关的数据集 CLIPort,表 1 则给出了两阶段训练中所有数据的来源和数量统计。

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

图 4. LEO 数据集示意图

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

表 1. 数据集统计

LLM 辅助数据生成

为了解决当前三维场景视觉谈话指令微调数据不足、现有的生成法子得到的数据质量不高的问题,作家提出了基于三维在场景图(scene graph)的数据生成法子,以及精炼过程(refinement procedures)来生成高质量的数据。具体过程如图 5 所示。

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

图 5. 基于 LLM 的三维视觉 – 谈话指令微调数据生成

为了提高 LLM 生成数据的可靠性,作家提出了物体为中心的思维链(Object-centric Chain-Of-Thought)法子,提高生成回答和场景的关联,减少了输出中的幻觉(hallucination),并进一步通过精炼过程(Refinement Procedures)纠正生成数据中的错误。经过这一流程,最终得到了高质量的指令微调数据,更多关于数据集生成法子的细节和统计结果参见论文的附录部分。

模型才能

三维视觉谈话明白和具身推理首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

                               视频 1. LEO 在 ScanQA, Scan2Cap, SQA 等任意上的表现

作家在三维场景问答数据集 ScanQA、三维物体描述数据集 Scan2Cap、三维场景具身推理数据集 SQA3D 上测试了模型的才能,这几类任意都以三维场景、自然谈话指令为输入,其中 SQA3D 任意上还包括了提问时所处的位置和朝向,基于这些输入模型需要给出相应的回答,如上面的视频所示。

作家比较了之前各个数据集上的 SOTA 法子,如 3D-VisTA [4],3D-LLM [5],结果表 2 所示,实验结果表明 LEO 在三维视觉谈话明白的任意上的多个指标明显优于之前的法子。

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

表 2 – 表 4. LEO 在三维视觉谈话明白任意上的性能表现

三维世界中的具身行动执行首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下                                 视频 2. LEO 在 manipulation 和 object navigation 任意上的表现

作家测试了 LEO 在机器人操作数据集 CLIPort 上的表现,该任意要求模型根据三维、二维感知结果和自然谈话指令输出机械臂操作指令,如视频 2 所示。作家比较了 CLIPort 的基线法子 [6],结果如表 3 所示,证明了提出法子的优越性。另外,作家还测试了 LEO 在 MP3D(in domain)和 HM3D(out of distribution)这两个数据集上的表现,这一任意以三维场景、第一视角图片和自然谈话指令作为输入,模型需要给出下一步的行动,如视频 3 所示。

论文与近期的相关工作 [7][8] 进行了比较,如表 4 所示。可以看出所提法子在学习最短路径数据下的表现可圈可点,在 SPL 指标上超越了先前的基准法子,而由于 LEO 的模型没有采用 recurrence 的结构,因此在学习 70k human demonstrations 的设定下表现出的才能有限。

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

图 6. LEO 的才能可视化

三维场景中的对话和规划

图 6 给出了 LEO 在多种任意中的可视化结果,可以看出,由于经过了指令微调训练的过程,LEO 可以进行多轮的场景对话,如按照用户需求在场景中寻找物体、按照不同的要求描述房间中的物体、给出建议等。还可以根据场景信息进行任意规划,如将房间整理为一个学习空间、打扫房间、重新装饰房间等,更多的例子可以在项目主页中进一步了解。

实验分析

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

图 7. 消融实验结果

为了研究所提出的训练策略有效性,作家进行了不同数据集和训练阶段的多组对比实验。其中图 7-(a) 展示的是采用不同的训练数据得到的模型在多个任意上的表现,图 7-(b) 展示的是采用不同规模的 token 训练得到的模型对 test loss 的影响。

从实验可以得出如下结论:1)指令微调训练遵循 scaling law [9] 的规律。2)所提出的两阶段训练策略是重要的,对齐阶段的缺失会造成性能的明显下降。3)简单将模型参数规模从 7B 扩大至 13B 会造成性能的降低。

结论

本文提出的智能体 LEO 将当前的 LLM 模型才能拓展到了三维世界以及行动执行任意上,这一工作为构建通用具身智能体迈出了重要的一步。

基于这一工作,作家认为未来可以在如下方面进一步进行探索:

1)通过大规模的场景 – 文本数据对提升三维视觉 – 谈话定位才能;

2)填补视觉 – 谈话才能和行动执行才能之间的差距;

3)探索具身通用智能体的对齐和安全问题。

团队介绍

论文核心团队来自北京通用人工智能研究院通用视觉实验室,团队负责人黄思远博士长期从事关于三维场景明白、具身智能体、视觉机器人等方向的相关工作。该团队拥有包括全职研究员、工程师、以及实习生在内的三十余人团队,团队的长期目标是打造未来的通用具身智能体 / 视觉机器人。

首个精通3D任意的具身通才智能体:感知、推理、规划、行动统统拿下

参考文献

[1] https://cdn.openai.com/papers/gpt-4-system-card.pdf

[2] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023b.

[3] Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan

Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al. Palm-e: An embodied multimodal

language model. In International Conference on Machine Learning (ICML), 2023.

[4] Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, and Chuang Gan. 3d-llm: Injecting the 3d world into large language models. arXiv preprint arXiv:2307.12981, 2023.

[5] Ziyu Zhu, Xiaojian Ma, Yixin Chen, Zhidong Deng, Siyuan Huang, and Qing Li. 3d-vista: Pre-trained transformer for 3d vision and text alignment. In International Conference on Computer Vision (ICCV), 2023c.

[6] Mohit Shridhar, Lucas Manuelli, and Dieter Fox. Cliport: What and where pathways for robotic manipulation. In Conference on Robot Learning (CoRL), 2021.

[7] Ram Ramrakhya, Eric Undersander, Dhruv Batra, and Abhishek Das. Habitat-web: Learning embodied object-search strategies from human demonstrations at scale. In Conference on Computer Vision and Pattern Recognition (CVPR), 2022.

[8] Arjun Majumdar, Karmesh Yadav, Sergio Arnaud, Yecheng Jason Ma, Claire Chen, Sneha Silwal, Aryan Jain, Vincent-Pierre Berges, Pieter Abbeel, Jitendra Malik, et al. Where are we in the search for an artificial visual cortex for embodied intelligence? arXiv preprint arXiv:2303.18240, 2023. 7

[9] Jared Kaplan, Sam McCandlish, Tom Henighan, Tom B Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. Scaling laws for neural language models. arXiv preprint arXiv:2001.08361, 2020.

给TA打赏
共{{data.count}}人
人已打赏
应用

遐想王传东:AI PC 时代正在到来

2023-12-8 11:36:00

应用

GTA6预告片播放过亿,AI三巨头也能秒变GTA匪帮

2023-12-8 15:05:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索