最近,具身智能成为人工智能领域关注的一个焦点。从斯坦福大学的 VIMA 机器人智能体,到谷歌 DeepMind 推出首个控制机器人的视觉 – 言语 – 动作(VLA)的模型 RT-2,大模型加持的机器人研讨备受关注。
当前,自监督和言语监督的图象模型已经包含丰富的世界知识,这对于泛化来说非常重要,但图象特性是二维的。我们知道,机器人使命通常需要对现实世界中三维物体的几何形状有所了解。
基于此,来自 MIT CSAIL 和 IAIFI 的研讨者利用蒸馏特性场(Distilled Feature Field,DFF),将准确的 3D 几何图形与来自 2D 根基模型的丰富语义结合起来,让机器人能够利用 2D 根基模型中丰富的视觉和言语先验,完成言语引导的操纵。
论文地址:https://arxiv.org/abs/2308.07931
具体来说,该研讨提出了一种用于 6-DOF 抓取和搁置的小样本学习要领,并利用强大的空间和语义先验泛化到未见过物体上。使用从视觉 – 言语模型 CLIP 中提取的特性,该研讨提出了一种通过开放性的自然言语指令对新物体进行操纵,并展示了这种要领泛化到未见过的表达和新型物体的能力。
要领介绍
该研讨分析了少样本和言语引导的操纵,其中需要在没见过类似物体的情况下,给定抓取示范或文本描述,机器人就能拾取新物体。为了实现这一目标,该研讨围绕预训练图象嵌入构建了系统,这也是从互联网规模的数据集中学习常识先验的可靠要领。
下图 1 描述了该研讨设计的系统:机器人首先使用安装在自拍杆上的 RGB 相机拍摄一系列照片来扫描桌面场景,这些照片用于构建桌面的神经辐射场 (NeRF)。最重要的是,该神经辐射场经过训练不仅可以渲染 RGB 颜色,还可以渲染来自预训练视觉根基模型的图象特性。这会产生一种场景表征,称为蒸馏特性场(DFF),它将 2D 特性图的知识嵌入到 3D 体积中。然后,机器人参考示范和言语指令来抓取用户指定的物体。
该研讨的一大亮点是从 CLIP 模型中提取密集的二维特性,来给蒸馏特性场提供监督。此前,OpenAI 的 CLIP 模型仅提供图片尺度的全局特性,而 3D 神经场的生成需要密集的 2D 描述符。
为了解决这个问题,研讨团队使用 MaskCLIP 对 CLIP 的视觉模型进行重新参数化,提取 patch 级密集特性。此要领不需要重新训练,可以保证其描述符与言语模型的对齐。
具身智能 (embodied intelligence) 囊括机器人,自动驾驶汽车等和物理世界有相互作用的人工智能体。这类智能体需要对物理世界同时进行几何空间和语义的理解来进行决策。
为了实现这样的表征能力,研讨团队将视觉根基模型和视觉 – 言语根基模型中经过预训练的二维视觉表征通过可微分的三维渲染,构建为 3D 特性场。团队将这个要领运用在 6-DOF 机器人抓取使命上,这种要领叫作机器人操纵特性场(Feature Fields for Robotic Manipulation,F3RM)的要领需要解决三个独立的问题:
首先,如何以合理的速度自动生成场景的特性场;
其次,如何表征和推断 6-DOF 抓取和搁置的姿态;
最后,如何结合言语引导来实现开放文本命令。
自然言语提供了一种将机器人操纵扩展到开放物体集的要领,为目标物体照片不准确或不可用的情况提供了一种替代方案。在测试时,机器人接收来自用户的开放文本言语查询,其中指定要操纵的物体。如下图 3 所示,言语引导的姿态推断过程包括三个步骤:
检索相关示范;
初始化粗略抓取;
言语引导的抓取姿态优化。
实验结果
我们先来看一些机器人抓取的实验效果。例如,使用 F3RM 要领,机器人可以轻松抓取一个螺丝刀工具:
抓取小熊玩偶:
抓取透明杯子和蓝色杯子:
把物体挂放在不同材质的架子上:
F3RM 还可以识别并抓取一些不常见的物体,比如化学领域会用到的量勺、量杯:
为了表明机器人能够利用 2D 根基模型中丰富的视觉和言语先验,并且可以泛化到未见过的新型物体上,该研讨还进行了一系列抓取和搁置使命的实验,我们来看下实验结果。
从示例中学会抓握
如下图 4 所示,该研讨进行了 6-DOF 抓取和搁置使命,并为每个使命提供两个示范。为了标记示范,该研讨将 NeRF 重建的点云加载到虚拟现实中,并使用手动控制器将夹子移动到所需的姿态(图 2 (a))。
机器人在抓取和搁置使命上的成功率如下表 1 所示:
下图 5 展示了该研讨所提要领在未见过的新物体上的泛化情况:
此外,语义特性和详细 3D 几何图形之间的融合提供了一种对密集的堆叠进行建模的要领。例如,在下图 6 (b) 中,毛毛虫玩具被埋在其他玩具下面。图 6 (c) 显示机器人抓住了毛毛虫玩具,并将其从玩具堆的底部拾起。
言语引导的机器人抓取
该研讨设置了 13 个桌面场景来研讨使用开放文本言语和 CLIP 特性场来指定要操纵物体的可行性。
在下图 7 中,机器人在言语引导下成功执行了 5 个抓握。整个场景包含 11 个物体,其中 4 个来自 YCB 物体数据集。
言语引导的操纵成功率如下表 2 所示:
作者介绍
William Shen
杨歌
文章的两位共同一作,博士三年级的 William Shen 和博后 杨歌是CSAIL 「具身智能」团队的成员 (https://ei.csail.mit.edu/labs.html)。这篇文章的引导老师是 Leslie Kaelbling 和 Phillip Isola. 其中 杨歌是 2023 年 CSAIL 具身智能研讨会的共同筹办人。
感兴趣的读者可以阅读论文原文,了解更多研讨内容。