买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

如果有个这样的机器人，你几点回家？「xx，去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中，很多家庭成员都不免被支使干这种活儿。甚至有时候，宠物狗也难以幸免。但人总有支使不动的时候，宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。最近，纽约大学、Meta 研发出的一款机器人学会了这个技能。你只需要对它说，「把桌子上的玉米片拿到床头柜上」，它就能自己找到玉米片，并规划出路线和相应的动作，顺利完成任务。此外，它还能帮你整理东西或扔垃圾。这个机器人名叫 OK-Robot，由来自纽约大学、Meta

如果有个这样的机器人，你几点回家？

「xx，去把电视柜上的遥控器帮我拿过来。」在一个家庭环境中，很多家庭成员都不免被支使干这种活儿。甚至有时候，宠物狗也难以幸免。但人总有支使不动的时候，宠物狗也并不一定都能听懂。帮人类干活儿的终极梦想还是寄托在机器人身上。

最近，纽约大学、Meta 研发出的一款机器人学会了这个技能。你只需要对它说，「把桌子上的玉米片拿到床头柜上」，它就能自己找到玉米片，并规划出路线和相应的动作，顺利完成任务。此外，它还能帮你整理东西或扔垃圾。

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

这个机器人名叫 OK-Robot，由来自纽约大学、Meta 的研究者共同构建。他们将视觉说话模型（用于物体检测）、导航和抓取的基础模块整合到一个绽放知识型框架中，为机器人的高效拾放操纵提供了解决方案。看来，等我们老了之后，买个机器人给自己端茶倒水还是有希望的。

OK-Robot 定位中的「绽放知识」指的是在大型公开数据集上训练的学习模型。当 OK-Robot 被安排在一个新的家庭环境中时，它将从 iPhone 上获取扫描结果。根据扫描结果，它会应用 LangSam 和 CLIP 计算出密集的视觉说话表征，并将其存储在语义存储器中。在此之后，给定一个需要拾取的工具的说话查问，查问的说话表征与语义记忆相匹配。接下来，它会依次应用导航和拾取模块，移动到所需物体并将其拾取。类似的过程也可用于丢弃物体。

为了研究 OK-Robot，研究者在 10 个真实的家庭环境中对其举行了测试。通过实验，他们发现，在一个从未见过的自然家居环境中，该系统零样本部署的成功率平均为 58.5%。然而，这一成功率在很大程度上取决于环境的「自然程度」。因为他们发现，通过改进查问、整理空间和排除明显具有对抗性的物体（太大、太半透明、太滑），这一成功率达到了约 82.4%。买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

在纽约市的 10 个家庭环境中，OK-Robot 尝试了 171 个拾取任务。

总之，通过实验，他们得出了以下结论：

预训练的视觉说话模型对绽放辞汇导航非常有效：目前的绽放辞汇视觉说话模型 —— 如 CLIP 或 OWL-ViT—— 在识别真实世界中的任意物体方面表现出色，并能以零样本的方式导航、找到这些物体。

预训练的抓取模型可直接应用于移动操控：与 VLM 类似，根据大量数据预训练的专用机器人模型可以直接应用于家庭中的绽放辞汇抓取。这些机器人模型不需要任何额外的训练或微调。

如何组合组件至关重要：研究者发现，在预先训练好模型的情况下，可以应用一个简单的状态机模型（state-machine model）将它们组合起来，而无需举行任何训练。他们还发现，应用启发式格式来抵消机器人的物理限制，可以在真实世界中获得更高的成功率。

目前仍存在一些挑战：考虑到在任意家庭中举行零样本操纵的巨大挑战，OK-Robot 在先前工作的基础上举行了改进：通过分析失败模式，他们发现在视觉说话模型、机器人模型和机器人形态学方面可以举行重大改进，这将直接提高绽放知识操纵智能体的性能。

为了鼓励和支持其他研究者在绽放知识机器人领域的工作，作者表示将共享 OK-Robot 的代码和模块。更多信息可参见：https://ok-robot.github.io。

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

论文标题：OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

论文链接：https://arxiv.org/pdf/2401.12202.pdf

技术组成和格式

该研究主要解决这个问题：从 B 上拿起 A 并将其放在 C 上，其中 A 是一个物体，B 和 C 是实际世界环境中的某个地方。要实现这一点，所提系统需要包含以下模块：绽放辞汇工具导航模块，绽放辞汇 RGB-D 抓取模块以及释放或安排工具的启发式模块（dropping heuristic）。

绽放辞汇工具导航

首先是扫描房间。绽放辞汇工具导航遵循了 CLIP-Fields 的格式，并假设有一个预先映射阶段，即应用 iPhone 手动扫描家庭环境。这种手动扫描只是用 iPhone 上的 Record3D 应用程序拍摄家庭视频，这将产生一系列带位置的 RGB-D 图象。

扫描每个房间的时间不到一分钟，一旦信息收集完毕，RGB-D 图象以及相机的姿态和位置就被导出到项目库中举行地图构建。录制时必须捕捉地面表面以及环境中的物体和容器。

接下来是举行工具检测。在扫描的每一帧上，会有一个绽放辞汇工具检测器对扫描的内容举行处理。本文选择 OWL-ViT 工具检测器，因为这种格式在初步查问中表现更好。研究者在每一帧上应用检测器，并提取每个工具边界框、CLIP 嵌入、检测器置信度，并将它们传递到导航模块的工具存储模块中。

然后举行以工具为中心的语义存储。本文借助 VoxelMap 来完成这一步，具体来说，他们应用深度图象和相机收集的姿态将工具掩模反向投影到实际世界坐标中，这种方式可以提供一个点云，其中每个点都有一个来自 CLIP 的关联语义向量。

之后是查问记忆模块：给定一个说话查问，本文应用 CLIP 说话编码器将其转换为语义向量。由于每个体素都与家中的真实位置相关联，因此可以找到最有可能找到查问工具的位置，类似于图 2 (a)。

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

必要时，本文将「A on B」实施为「A close B」。为此，查问 A 选择前 10 个点，查问 B 选择前 50 个点。然后计算 10×50 成对欧氏距离，并选择与最短 (A, B) 距离相关的 A 点。

完成上述过程，接下来就是导航到实际世界中的工具：一旦得到了实际世界中的 3D 位置坐标，就可以将其用作机器人的导航目标来初始化操纵阶段。导航模块必须将机器人安排在手臂可触到的范围，以便机器人随后可以操纵目标物体。

机器人对实际世界物体的抓握

与绽放辞汇导航不同，为了完成抓取任务，算法需要与实际世界中的任意工具举行物理交互，这使得这部分变得更加困难。因此，本文选择应用预训练的抓取模型来生成实际世界中的抓取姿态，并应用 VLM 举行说话条件过滤。

本文应用的抓取生成模块是 AnyGrasp，它在给定单个 RGB 图象和点云的场景中应用平行钳口夹具生成无碰撞抓取。

AnyGrasp 提供了场景中可能的抓握（图 3 第 2 列），包括抓握点、宽度、高度、深度和抓握分数，该分数表示每次抓握中未校准的模型置信度。

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

应用说话查问过滤抓握：对于从 AnyGrasp 获得的抓握建议，本文采用 LangSam 过滤抓握。本文将所有建议的抓握点投影到图象上，并找到落入工具掩模的抓握点（图 3 第 4 列）。

抓握执行。一旦确定了最佳抓握（图 3 第 5 列），就可以应用简单的预抓握格式来抓握目标工具。

释放或安排工具的启发式模块

抓握工具后，接下来就是将工具安排在什么地方。与 HomeRobot 的基线实现不同，该格式假设物体放下的位置是一个平坦的表面，本文举行了扩展，还涵盖了凹物体，如水槽、箱子、盒子和袋子。

至此，导航、抓握和安排都有了，之后就可以直接将它们组合起来，该格式可以直接应用于任何新的家庭。对于新的家居环境，该研究可以在一分钟内扫描房间。然后，只需不到五分钟即可将其处理到 VoxelMap 中。一旦完成，机器人就可以立即安排在选定的场地并开始运行。从到达一个全新的环境到开始在其中自主操纵，该系统平均需要不到 10 分钟即可完成第一个取放任务。

实验

在超过 10 个家庭实验中，OK-Robot 在取放任务上实现了 58.5% 的成功率。

该研究还对 OK-Robot 举行了深入探索以更好地理解其故障模式。研究发现，故障的主要原因是操纵故障，然而，仔细观察后注意到失败的原因是长尾造成的，如图 4 所示，失败的三大原因包括未能从语义记忆中检索到要导航到的正确工具 (9.3%) ，从操纵模块获得的姿态难以完成（8.0％），以及硬件原因（7.5％）。

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot

由图 5 可得，OK-Robot 中应用的 VoxelMap 略微优于其他语义记忆模块。至于抓取模块，AnyGrasp 明显优于其他抓取格式，在相对规模上比最佳候选格式（自上而下抓取）的性能高出近 50%。然而，基于启发式的算法，HomeRobot 的自上向下抓取击败了开源 AnyGrasp 基线和 Contact-GraspNet，这一事实表明构建真正的通用抓取模型仍然很困难。

买个机器人端茶倒水有希望了？Meta、纽约大学造了一个OK-Robot