一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

近期,具身智能方向取得了诸多进展。从谷歌的 RT-H 到 OpenAI、Figure 联合打造的 Figure 01,机器人的交互性、通用性越来越强。如果未来机器人成为人们日常生活的助手,你期待它们能够实现哪些恣意?泡一杯热气腾腾的手冲咖啡,整理桌面,甚至帮你精心安排一场浪漫的约会,这些恣意,只需一句指令,清华的具身智能新框架「CoPa」都能实现。CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清华叉院高阳教授机器人研讨团队最新提出的具

近期,具身智能方向取得了诸多进展。从谷歌的 RT-H 到 OpenAI、Figure 联合打造的 Figure 01,机器人的交互性、通用性越来越强。

如果未来机器人成为人们日常生活的助手,你期待它们能够实现哪些恣意?泡一杯热气腾腾的手冲咖啡,整理桌面,甚至帮你精心安排一场浪漫的约会,这些恣意,只需一句指令,清华的具身智能新框架「CoPa」都能实现。

CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清华叉院高阳教授机器人研讨团队最新提出的具身智能框架,首次实现了多场景、长程恣意、复杂3D行为的泛化能力。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

论文地址:https://arxiv.org/abs/2403.08248

项目主页:https://copa-2024.github.io/

得益于对视觉言语大模型(VLMs)的创新使用,在不经过任何训练的前提下,CoPa 可以泛化到开放场景中,处理复杂的指令。CoPa 最令人惊喜的是它展现出对场景中物体的物理属性具备细致的懂得,以及其准确的规划与操纵能力。

例如,CoPa 能够帮助研讨人员制作一杯手冲咖啡:一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在该恣意中,CoPa 不仅可以懂得复杂桌面陈设中每个物体的作用,还可以通过准确的控制,实现对它们的物理操纵。比如「把水从水壶倒到漏斗中」这一恣意,机器人将水壶移动到漏斗的上方,准确地将其旋转至合适的角度,使得水可以从壶口流到漏斗中。

CoPa 还能精心安排一场浪漫的约会。在了解研讨人员的约会需求后,CoPa 帮助其布置了精美的西餐桌。一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在深入懂得用户需求的同时,CoPa 还展现出了准确的操纵物体本领。比如「把花拔出花瓶」这一恣意,机器人首先抓住了花的茎,将其旋转至正对着花瓶,最后将其拔出。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

方法介绍

算法流程

大多数操纵恣意可以被分解为两个阶段:物体的抓取,以及实现恣意所需的后续动作。比如,在开抽屉时,我们需要先抓住抽屉的把手,再沿着直线拉出抽屉。鉴于此,研讨人员设计了两个阶段,即首先通过「恣意导向的抓取模块(Task-Oriented Grasping)」生成机器人抓取物体的位姿,再通过「恣意有关的运动规划模块(Task-Aware Motion Planning)」生成抓取后实现恣意所需的位姿。机器人在相邻位姿之间的转移可以通过传统的路径规划算法实现。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

重要个人检测模块

研讨人员观察到大多数操纵恣意都需要对场景中的物体具有细致的「个人级(part-level)懂得」。比如在用小刀切东西时,我们会握着刀柄而非刀刃;在戴眼镜时,我们会拿着镜框而非镜片。鉴于这个观察,研讨团队设计了「由粗到细的个人检测(coarse-to-fine part grounding)模块」来定位场景中和恣意有关的个人。具体来说,CoPa 先通过粗粒度物体检测来定位场景中和恣意有关的物体,随后通过细粒度个人检测来定位这些物体上和恣意有关的个人。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在「恣意导向的抓取模块」中,CoPa 首先通过该重要个人检测模块定位抓取的位置(比如工具的柄),该位置信息被用来过滤 GraspNet(一个可以生成场景中所有可能的抓取位姿的模型)生成的抓取位姿,进而得到最终的抓取位姿。

恣意有关的运动规划模块

为了让视觉言语大模型来帮助机器人进行操纵恣意,该研讨需要设计一个接口,该接口既可以让大模型以言语的方式推理,又有利于机器人操纵。研讨团队发现,在执行恣意的过程中,恣意有关的物体通常会受到许多的空间几何限定。比如,在给手机充电时,充电头必须正对着充电口;在盖瓶盖时,盖子必须被正放在瓶口位置。鉴于此,研讨团队提出使用空间限定作为视觉言语大模型和机器人之间的桥梁。具体来说,CoPa 首先通过视觉言语大模型生成恣意有关的物体在实现恣意时需要满足的空间限定,再通过一个求解模块鉴于这些限定解出机器人的位姿。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

试验结果

CoPa 能力评估

CoPa 在现实世界操纵恣意中展现了极强的泛化能力。得益于对视觉言语大模型中蕴含的常识知识的利用,CoPa 对场景中物体的物理属性具有深入的懂得。

例如,在「锤钉子」恣意中,CoPa 首先抓住了锤柄,再将锤子旋转至锤头正对着钉子,最后向下锤。该恣意要求准确识别出锤柄、锤面以及钉面,并充分懂得它们的空间关系,证明 CoPa 对场景中物体的物理属性具有深入的懂得。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在「把橡皮放进抽屉」恣意中,CoPa 首先定位到了橡皮的位置,然后发现橡皮的一个人被纸包裹着,于是聪明地抓取了该个人,确保橡皮不会被弄脏。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

在「把勺子拔出杯子」恣意中,CoPa 首先抓住了勺柄,将其平移旋转至竖直朝下,并正对着杯子,最后将其拔出杯中,证明 CoPa 可以很好的懂得实现恣意时物体需要满足的空间几何限定。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

研讨团队在 10 个现实世界恣意上进行了充分的定量试验。如表一所示,CoPa 在处理这些复杂恣意的表现上显著超过了基线方法以及许多融化变种方法。

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

融化试验

研讨人员通过一系列融化试验证明了 CoPa 框架中如下三个组成个人的重要性:基础模型、由粗到细的个人检测、空间限定生成。试验结果如上方表一中所示。

基础模型

表中 CoPa w/o foundation 融化试验去除了 CoPa 中对基础模型的使用,转而通过检测模型来定位物体,以及鉴于规则的方法生成空间限定。试验结果表明该融化变种的成功率很低,证明了基础模型中蕴含的丰富常识知识在 CoPa 中的重要作用。比如在「扫螺母」恣意中,该融化变种不知道场景中哪个工具适合用来扫。

由粗到细的个人检测

表中 CoPa w/o coarse-to-fine 融化试验去除了 CoPa 由粗到细的个人检测设计,转而直接使用细粒度分割来定位物体。该变种在定位物体重要个人相对困难的恣意中表现显著降低。比如在「锤钉子」恣意中,缺少「由粗到细」这一设计导致很难识别出锤面。

空间限定生成

表中 CoPa w/o constraint 融化试验去除了 CoPa 的空间限定生成模块,转而让视觉言语大模型直接输出机器人的目标位姿的具体数值。试验表明根据场景图片直接输出机器人目标位姿是十分困难的。比如在「倒水」恣意中,水壶需要被倾斜一定的角度,该变种完全无法生成此时机器人的位姿。

了解更多内容,请参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

2024-3-18 11:09:00

应用

苹果为杀入AI规模低调收买,iOS 18要有大动作

2024-3-18 11:19:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索