大模型+机器人，详尽的综述报告来了，多位华人学者参与

大模型的出色威力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人畛域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。预训练的庞大言语模型（LLM）、庞大视觉 - 言语模型（VLM）、庞大音频 - 言语模型（ALM）和庞大视觉导航模型（VNM）可以被用于更好地处理机器人畛域的各种义务。将根底模型整合进机器人是一个快速发展的畛域，机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人畛域。近日，斯坦福大学和普林斯

大模型的出色威力有目共睹，而如果将它们整合进机器人，则有望让机器人拥有一个更加智能的大脑，为机器人畛域带来新的可能性，比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。

预训练的庞大言语模型（LLM）、庞大视觉 – 言语模型（VLM）、庞大音频 – 言语模型（ALM）和庞大视觉导航模型（VNM）可以被用于更好地处理机器人畛域的各种义务。将根底模型整合进机器人是一个快速发展的畛域，机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人畛域。

近日，斯坦福大学和普林斯顿大学等多所大学以及英伟达和 Google DeepMind 等多家企业的一个联合研讨团队发布了一篇综述报告，总结了根底模型在机器人研讨畛域的发展情况和未来应战。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

论文地址：https://arxiv.org/pdf/2312.07843.pdf

论文库：https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

团队成员中有很多我们熟悉的华人学者，包括朱玉可、宋舒然、吴佳俊、卢策吾等。

在范围广泛的大规模数据上预训练的根底模型在微调之后可以适用于多种多样的下游义务。根底模型已经在视觉和言语处理方面取得了重大突破，相关模型包括 BERT、GPT-3、GPT-4、CLIP、DALL-E 和 PaLM-E。

在根底模型出现之前，用于机器人的传统深度进修模型的训练利用的都是为不同义务收集的有限数据集。相反，根底模型则是会利用大范围多样化数据进行预训练，在其他畛域（比如自然言语处理、计算机视觉和医疗保健）的应用证明了其适应威力、泛化威力和总体性能表现。最终，根底模型也有望在机器人畛域展现出自己的潜力。图 1 展示了根底模型在机器人畛域的概况。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

相比于针对特定义务的模型，从根底模型迁移知识有可能减少训练时间和计算资源。尤其是在机器人相关畛域，多模态根底模型可以将从不同传感器收集的多模态异构数据融合和对齐成紧凑的紧凑同质表征，而这正是机器人理解和推理所需的。其进修到的表征可望用于自动化技术栈的任何部分，包括感知、决议和控制。

不仅如此，根底模型还能提供零样本进修威力，也就是让 AI 系统有威力在没有任何示例或针对性训练的前提下执行义务。这能让机器人将所学知识泛化到全新的用例，增强机器人在非结构化环境中的适应威力和灵活性。

将根底模型整合进机器人系统能提升机器人感知环境以及与环境交互的威力，有可能实现上下文感知型机器人系统。

举个例子，在感知畛域，庞大视觉 – 言语模型（VLM）能够进修视觉和文本数据之间的关联，从而具备跨模态理解威力，从而辅助零样本图象分类、零样本目标检测和 3D 分类等义务。再举个例子，3D 世界中的言语定基（language grounding，即将 VLM 的上下文理解与 3D 现实世界对齐）可以通过将话语与 3D 环境中的具体对象、位置或动作关联起来，从而增强机器人的空间感知威力。

在决议或规划畛域，研讨发现 LLM 和 VLM 可以辅助机器人规范涉及高层规划的义务。

通过利用与操作、导航和交互有关的言语线索，机器人可以执行更加复杂的义务。比如对于模仿进修和强化进修等机器人策略进修技术，根底模型似乎有威力提升数据效率和上下文理解威力。特别是言语驱动的奖励可通过提供经过塑造的奖励来引导强化进修智能体。

另外，研讨者也已经在利用言语模型来为策略进修技术提供反馈。一些研讨表明，VLM 模型的视觉问答（VQA）威力可以用于机器人用例。举个例子，已有研讨者利用 VLM 来回答与视觉内容有关的问题，从而帮助机器人完成义务。另外，也有研讨者利用 VLM 来帮助数据标注，为视觉内容生成描述标签。

尽管根底模型在视觉和言语处理方面具备变革性的威力，但对于现实世界的机器人义务来说，根底模型的泛化和微调依然颇具应战性。

这些应战包括：

1) 缺少数据：如何为机器人操作、定位、导航等机器人义务获取互联网规模级的数据，以及如何利用这些数据执行自监督训练；

2) 巨大的差异性：如何应对物理环境、实体机器人平台和潜在的机器人义务的巨大多样性，同时保持根底模型所需的通用性；

3) 不确定性的量化问题：如何解决实例层面的不确定性（比如言语歧义或 LLM 幻觉）、分布层面的不确定性和分布移位问题，尤其是闭环的机器人部署引起的分布移位问题。

4) 安全评估：如何在部署之前、更新过程中、工作过程中对基于根底模型的机器人系统进行严格测试。

5) 实时性能：如何应对某些根底模型推理时间长的问题 —— 这会有碍根底模型在机器人上的部署，以及如何加速根底模型的推理 —— 这是在线决议所需的。

这篇综述论文总结了当前根底模型在机器人畛域的利用情况。他们调查了当前的方法、应用、应战，并建议了解决这些应战的未来研讨方向，他们也给出了将根底模型用于实现机器人自主威力的潜在风险。

根底模型背景知识

根底模型有数以十亿计的参数，并且利用了互联网级的大规模数据进行预训练。训练如此大规模和高复杂性的模型需求极高的成本。获取、处理和管理数据的成本也会很高。其训练过程需求大量计算资源，需求 GPU 或 TPU 等专用硬件，还需求用于模型训练的软件和根底设施，这些都需求资金。此外，需求根底模型还需求很长的时间，这也会导致高成本。因此这些模型往往是作为可插拔模块利用的，即将根底模型整合进各种应用中，而无需大量定制工作。

表 1 给出了常用根底模型的细节。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

这一节将主要介绍 LLM、视觉 Transformer、VLM、具身多模态言语模型和视觉生成模型。还会介绍用于训练根底模型的不同训练方法。

他们首先介绍了一些相关的术语和数学知识，其中涉及 token 化、生成模型、判别模型、Transformer 架构、自回归模型、掩码式自动编码、对比进修和扩散模型。

然后他们介绍了庞大言语模型（LLM）的示例和历史背景。之后重点说明了视觉 Transformer、多模态视觉 – 言语模型（VLM）、具身多模态言语模型、视觉生成模型。

机器人研讨

这一节关注的是机器人决议、规划和控制。在这一畛域，庞大言语模型（LLM）和视觉言语模型（VLM）都有潜力用于增强机器人的威力。举个例子，LLM 可以促进义务规范过程，让机器人可以接收和解读来自人类的高级指令。

VLM 也有望为这一畛域做出贡献。VLM 擅长分析视觉数据。要让机器人做出明智的决议和执行复杂的义务，视觉理解威力是至关重要的。现在，机器人可以利用自然言语线索来增强自己执行操作、导航和交互相关义务的威力。

基于目标的视觉 – 言语策略进修（不管是通过模仿进修还是强化进修）有望通过根底模型获得提升。言语模型还能为策略进修技术提供反馈。这个反馈循环有助于持续提升机器人的决议威力，因为机器人可以根据从 LLM 收到的反馈优化自己的行动。

这一节关注的是 LLM 和 VLM 在机器人决议畛域的应用。

这一节分为六部分。其中第一部分介绍了用于决议和控制和机器人策略进修，其中包括基于言语的模仿进修和言语辅助的强化进修。

第二部分是基于目标的言语 – 图象价值进修。

第三部分介绍了利用庞大言语模型来规划机器人义务，其中包括通过言语指令来说明义务以及利用言语模型生成义务规划的代码。

第四部分是用于决议的上下文进修（ICL）。

接下来是机器人 Transformer。

第六部分则是开放词汇库的机器人导航和操作。

表 2 给出了一些特定于机器人的根底模型，其中报告了模型的大小和架构、预训练义务、推理时间和硬件设置。

大模型+机器人，详尽的综述报告来了，多位华人学者参与

感知

与周围环境交互的机器人会接收不同模态的感官信息，比如图象、视频、音频和言语。这种高维数据对机器人在环境中的理解、推理和互动而言至关重要。根底模型可以将这些高维输入转换成容易解读和操作的抽象结构化表征。尤其是多模态根底模型可让机器人将不同感官的输入整合成一个统一的表征，其中包含语义、空间、时间和可供性信息。这些多模态模型需求跨模态的交互，通常需求对齐不同模态的元素来确保一致性和互相对应。比如图象描述义务就需求文本和图象数据对齐。

这一节将关注与机器人感知相关的一系列义务，这些义务可利用根底模型来对齐模态，从而获得提升。其中的重点是视觉和言语。

这一节分为五部分，首先是开放词汇库的目标检测和 3D 分类，然后是开放词汇库的语义分割，接下来是开放词汇库的 3D 场景和目标表征，再然后是进修到的功能可供性，最后是预测模型。

具身 AI

近段时间，有研讨表明 LLM 可以成功用于具身 AI 畛域，其中「具身（embodied）」通常是指在世界模拟器中的虚拟具身，而非具有实体机器人身体。

这方面已经出现了一些有趣的框架、数据集和模型。其中尤其值得一提的是将 Minecraft 游戏用作训练具身智能体的平台。举个例子，Voyager 利用了 GPT-4 来引导智能体探索 Minecraft 环境。其能通过上下文 prompt 设计来与 GPT-4 互动，而无需对 GPT-4 的模型参数进行微调。

机器人进修方面的一个重要研讨方向是强化进修，也有研讨者在尝试通过根底模型来为强化进修设计奖励。

利用根底模型辅助机器人执行高层规划自然也早有研讨者尝试。此外也有研讨者在尝试将基于思维链的推理和动作生成方法用于具身智能体。

应战和未来方向

这一节会给出将根底模型用于机器人的相关应战。该团队也会探索可望解决这些应战的未来研讨方向。

第一个应战是克服训练用于机器人的根底模型时的数据稀缺问题，其中包括：

1. 利用非结构化游戏数据和未标注的人类视频来扩展机器人进修

2. 利用图象修复（Inpainting）来增强数据

3. 克服训练 3D 根底模型时的缺少 3D 数据的问题

4. 通过高保真模拟来生成合成数据

5. 利用 VLM 进行数据增强

6. 机器人的物理技能受限于技能的分布

第二个应战则与实时性能有关，其中关键的是根底模型的推理时间。

第三个应战涉及到多模态表征的局限性。

第四个应战则是如何量化不同层级的不确定性的问题，比如实例层面和分布层面，另外还涉及到如何校准以及应对分布移位的难题。

第五个应战涉及到安全评估，包括部署之前的安全测试和运行时的监控和对分布外情况的检测。

第六个应战则涉及到如何选择：利用现有的根底模型还是为机器人构建新的根底模型？

第七个应战涉及到机器人设置中的高度可变性。

第八个应战是如何在机器人设置中进行基准评估以及保证可复现性。

更多研讨细节，可参考原论文。

{{userData.name}}已认证

大模型+机器人，详尽的综述报告来了，多位华人学者参与

年度盘点！2023年不容错过的30款AI神器，你用过多少？

快手Agents零碎、模型、数据全部开源！

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！