大模型正在重构机器人，googleDeepmind这样定义具身智能的未来

过去一年中，连连取得突破的大模型正在重塑机器人研讨领域。在最先进的大模型成为具身机器人感知世界的「大脑」之后，机器人的进化速率取得了远超想象的进步。7 月，google DeepMind 宣布推出 RT-2：全球第一个节制机器人的视觉 - 说话 - 举动（VLA）模型。只须要向对话一样下达命令，它就能在一堆图片中辨认出霉霉，送给她一罐「快乐水」。甚至能主动思考，完毕了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。在 RT-2 之后，google DeepMind 又提出了 Q-Transformer，机器人界也有

过去一年中，连连取得突破的大模型正在重塑机器人研讨领域。

在最先进的大模型成为具身机器人感知世界的「大脑」之后，机器人的进化速率取得了远超想象的进步。

7 月，google DeepMind 宣布推出 RT-2：全球第一个节制机器人的视觉 – 说话 – 举动（VLA）模型。

只须要向对话一样下达命令，它就能在一堆图片中辨认出霉霉，送给她一罐「快乐水」。

大模型正在重构机器人，googleDeepmind这样定义具身智能的未来

甚至能主动思考，完毕了从「选择灭绝的动物」到抓取桌子上的塑料恐龙这种多阶段推理的飞跃。

大模型正在重构机器人，googleDeepmind这样定义具身智能的未来

在 RT-2 之后，google DeepMind 又提出了 Q-Transformer，机器人界也有了自己的 Transformer 。Q-Transformer 使得机器人突破了对高质量的演示数据的依赖，更擅长依靠自主「思考」来积累经验。

RT-2 发布仅两个月，又迎来了机器人的 ImageNet 时刻。google DeepMind 联合其他机构推出了 Open X-Embodiment 数据集，改变了以往须要针对每个义务、机器人具体定制模型的方法，将各种机器人学的知识结合起来，创造出了一种训练通用机器人的新思路。

想象一下，只需向你的机器人小助理发出「为我打扫房子」或「为我们做一顿美味健康的饭菜」等简单的要求，它们就可以完毕这些工作。打扫房间或做饭这种义务，对于人类来说很简单，但对于机器人来说，可真不容易，须要它们对世界有深度了解。

基于在机器人 Transformer 领域深耕多年的研讨基础，近期，google宣布了一系列机器人研讨进展：AutoRT、SARA-RT 和 RT-Trajectory，它们可以帮助机器人更快地做出决议计划，更好地了解它们身处于怎样的环境，更好地指导自己完毕义务。

google相信随着 AutoRT、SARA-RT 和 RT-Trajectory 等研讨成果的推出，能为现实的世界机器人的数据搜集、速率和泛化能力带来增益。

接下来，让我们回顾一下这几项重要研讨。

AutoRT：利用大型模型更好地训练机器人

AutoRT 结合了大型基础模型（如大型说话模型（LLM）或视觉说话模型（VLM））和机器人节制模型（RT-1 或 RT-2），创建了一个可以在新环境中部署机器人用以搜集训练数据的零碎。AutoRT 可以同时指导多个配备了视频摄像机和末端履行器的机器人，在各种各样环境中履行多样化的义务。

具体来说，每个机器人将根据 AutoRT，使用视觉说话模型（VLM）来「看看四周」，了解其环境和视线内的物体。接下来，大型说话模型会为其提出一系列创造性义务，例如「将零食放在桌子上」，并扮演决议计划者的角色，为机器人选择须要履行的义务。

研讨人员在现实世界中对 AutoRT 进行了长达七个月的广泛评估。实验证明，AutoRT 零碎可以同时安全地协调多达 20 个机器人，最多时共能协调 52 个机器人。通过指导机器人在各种办公楼内履行各种义务，研讨人员搜集了涵盖 77,000 个机器人试验，6,650 个独特义务的多样化数据集。

大模型正在重构机器人，googleDeepmind这样定义具身智能的未来

上图呈现了 AutoRT 零碎的运作过程：（1）自主轮式机器人找到了一个有多个物体的位置。（2）VLM 向 LLM 描述场景和物体。（3）LLM 为机器人提出各种操作义务，并决定哪些义务机器人可以独立完毕，哪些义务须要人类远程节制，哪些义务不可能完毕，然后做出选择。（4）机器人尝试选择要做的义务，搜集实验数据，并对数据的多样性和新鲜度进行评分。机器人将不断重复这个过程。

AutoRT 具有利用大型基础模型的潜力，这对于机器人了解实际使用中的人类指令至关重要。通过搜集更全面的实验训练数据和更多样化的数据，AutoRT 可以扩展机器人的学习能力，为现实世界的机器人训练带来提升。

在机器人融入我们的日常生活之前，须要保证它们的安全性，这要求研讨者做到负责任地开发，并对机器人的安全性进行深度研讨。

虽然 AutoRT 现在只是一个数据搜集零碎，但可以将其视为现实世界中自主机器人的早期阶段。它具有安全护栏，其中一项是一套以安全为重点的提示词，它可以在机器人履行基于 LLM 的决议计划时提供须要遵守的基本规则。

这些规则部分受到艾萨克・阿西莫夫的机器人三定律的启发，其中最重要的是机器人「不得伤害人类」。安全规则还要求机器人不得尝试涉及人类、动物、尖锐物体或电器的义务。

仅在提示词方面下功夫，也无法完全保证机器人实际使用中的安全问题。因此，AutoRT 零碎还包含实用安全措施层这一机器人技术的经典设计。例如，协作机器人的程序被设定为如果其关节上的力超过给定阈值，则自动停止，并且所有自主节制的机器人都可以通过物理停用开关被限制在人类监督员的视线范围内。

SARA-RT：让机器人 Transformer（RT）变得更快、更精简

另一项成果 SARA-RT，可将机器人 Transformer（RT）模型转换为更高效的版本。

google团队开发的 RT 神经网络架构已被用于最新的机器人节制零碎，包括 RT-2 模型。最好的 SARA-RT-2 模型在获得简短的图像历史记录后，比 RT-2 模型的精确度高 10.6%，速率快 14%。google表示，这是首个在不降低质量的情况下提高计算能力的可扩展注意力机制。

虽然 Transformer 功能强大，但它们可能会受到计算需求的限制，从而减慢决议计划速率。Transformer 主要依赖于二次复杂度的注意力模块。这意味着，如果 RT 模型的输入增加一倍（例如，为机器人提供更多或更高分辨率的传感器），处理该输入所需的计算资源就会增加四倍，从而导致决议计划速率减慢。

SARA-RT 采用了一种新颖的模型微调方法（称为「向上训练」）来提高模型的效率。向上训练将二次复杂性转换为单纯的线性复杂性，从而大幅降低了计算要求。这种转换不仅能提高原始模型的速率，还能保持其质量。

google希望许多研讨人员和从业人员能将这一实用零碎使用于机器人技术及其他领域。由于 SARA 提供了加快 Transformer 速率的通用方法，无需进行计算成本高昂的预训练，因此这种方法具有大规模推广 Transformer 技术的潜力。SARA-RT 不须要任何额外的代码，因为可以使用各种开源的线性变体。

当 SARA-RT 使用于拥有数十亿个参数的 SOTA RT-2 模型，它能在各种机器人义务中实现更快的决议计划和更好的性能：

大模型正在重构机器人，googleDeepmind这样定义具身智能的未来

用于操纵义务的 SARA-RT-2 模型。机器人的举动以图像和文本指令为条件。

凭借其坚实的理论基础，SARA-RT 可使用于各种 Transformer 模型。例如，将 SARA-RT 使用于点云 Transformer（用于处理来自机器人深度摄像头的空间数据），其速率可以提高一倍以上。

RT-Trajectory：帮助机器人泛化

人类可以直观地了解、学会如何擦桌子，但机器人须要许多可能的方式将指令转化为实际的物理举动。

传统上，对机械臂的训练依赖于将抽象的自然说话（擦桌子）映射到具体的举动（关闭抓手、向左移动、向右移动），这使得模型很难推广到新义务中。与此相反，RT – 轨迹模型通过解释具体的机器人举动（如视频或草图中的举动），使 RT 模型可以了解「如何完毕」义务。

RT-Trajectory 模型能自动添加视觉轮廓，描述训练视频中的机器人举动。RT-Trajectory 将训练数据集中的每段视频与机器人手臂履行义务时抓手的 2D 轨迹草图叠加在一起。这些轨迹以 RGB 图像的形式，为模型学习机器人节制策略提供了低层次、实用的视觉提示。

在对训练数据中未见的 41 项义务进行测试时，由 RT-Trajectory 节制的机械臂的性能比现有的 SOTA RT 模型高出一倍多：义务成功率达到 63%，而 RT-2 的成功率仅为 29%。

该零碎的用途十分广泛，RT-Trajectory 还可以通过观看人类对所需义务的演示来创建轨迹，甚至可以接受手绘草图。而且，它还能随时适应不同的机器人平台。

大模型正在重构机器人，googleDeepmind这样定义具身智能的未来左图：只使用自然说话数据集训练的 RT 模型节制的机器人，在履行擦桌子这一新义务时受挫，而由 RT 轨迹模型节制的机器人，在经过 2D 轨迹增强的相同数据集训练后，成功规划并履行了擦拭轨迹。右图：训练有素的 RT 轨迹模型在接到新义务（擦桌子）后，可以在人类的协助下或利用视觉说话模型自行以多种方式创建 2D 轨迹。