首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

这几天,家务活都被机器人抢着干了。前脚来自斯坦福的会用锅的机器人刚刚登场,后脚又来了个会用咖啡机的机器人 Figure-01 。只需给它观看示范视频,加上10个小时的训练,Figure-01 就能学会运用咖啡机,放咖啡胶囊到按下启动键,一气呵成。但是想要让机器人无师自通,第一次见到各式各样的家具家电,就能在没有示范视频的情况下熟练运用。这是个难以解决的问题,不仅需要机器人拥有强大的视觉感知、决策计划能力,更需要精确的操纵妙技。现在,一个三维具身图文大模型系统为以上难题提供了新思路。该系统将基于三维视觉的精准几何感知

这几天,家务活都被机器人抢着干了。

前脚来自斯坦福的会用锅的机器人刚刚登场,后脚又来了个会用咖啡机的机器人 Figure-01 。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

只需给它观看示范视频,加上10个小时的训练,Figure-01 就能学会运用咖啡机,放咖啡胶囊到按下启动键,一气呵成。

但是想要让机器人无师自通,第一次见到各式各样的家具家电,就能在没有示范视频的情况下熟练运用。这是个难以解决的问题,不仅需要机器人拥有强大的视觉感知、决策计划能力,更需要精确的操纵妙技。

现在,一个三维具身图文大模型系统为以上难题提供了新思路。该系统将基于三维视觉的精准几何感知模型与擅长计划的二维图文大模型结合了起来,无需样本数据,即可解决与家具家电有关的复杂长程任意。

这项研讨由斯坦福大学的 Leonidas Guibas 教授、北京大学的王鹤教授团队,与智源人工智能研讨院合作完成。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

论文链接:https://arxiv.org/abs/2312.01307

项目主页:https://geometry.stanford.edu/projects/sage/

代码:https://github.com/geng-haoran/SAGE

研讨问题概述

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 1:根据人类指令,机械臂能够无师自通地运用各种家用电器。

近日,PaLM-E 和 GPT-4V 带动了图文大模型在机器人任意计划中的应用,视觉谈话引导下的泛化机器人操控成为了热门研讨领域。

以往的常见方法是建立一个两层的系统,上层的图文大模型做计划和妙技调度,下层的操控妙技策略模型负责物理地执行举措。但当机器人在家务活中面对各种各样从未见过并且需要多步操纵的家用电器时,现有方法中的上下两层都将束手无策。

以目前最先进的图文大模型 GPT-4V 为例,虽然它可以对单张图片进行文字形容,但涉及可操纵零部件检测、计数、定位及状态估计时,它仍然错误百出。图二中的红色高亮部分是 GPT-4V 在形容抽屉柜、烤箱和立柜的图片时出现的各种错误。基于错误的形容,机器人再进行妙技调度,显然不太可靠。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 2:GPT-4V 不能很好处理计数,检测,定位,状态估计等泛化操控所关注的任意。

下层的操控妙技策略模型负责在各种各样的实际情况中执行上层图文大模型给出的任意。现有的研讨成果大部分是基于规则生硬地对一些已知物体的抓取点位和操纵方式进行了编码,无法泛应对没见过的新物体类别。而基于端到端的操纵模型(如 RT-1,RT-2 等)只运用了 RGB 模态,缺乏对距离的准确感知,对新环境中如高度等变化的泛化性较差。

受王鹤教授团队之前的 CVPR Highlight 工作 GAPartNet [1] 启迪,研讨团队将重点放在了各种类别的家用电器中的通用零部件(GAPart)之上。虽然家用电器千变万化,但总有几样部件不可或缺,每个家电和这些通用的部件之间存在相似的几何和交互模式。

由此,研讨团队在 GAPartNet [1] 这篇论文中引入了 GAPart 这一概念。GAPart 指可泛化可交互的零部件。GAPart 出现在不同类别的铰接物体上,例如,在保险箱,衣柜,冰箱中都能找到铰接门这种部件。如图 3,GAPartNet [1] 在各类物体上标注了 GAPart 的语义和位姿。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图3:GAPart:可泛化可交互的零部件[1]。

在之前研讨的基础上,研讨团队创造性地将基于三维视觉的 GAPart 引入了机器人的物体操控系统 SAGE 。SAGE 将通过可泛化的三维部件检测 (part detection),精确的位姿估计 (pose estimation) 为 VLM 和 LLM 提供信息。新方法在决策层解决了二维图文模型精细计算和推理能力不足的问题;在执行层,新方法通过基于 GAPart 位姿的鲁棒物理操纵 API 实现了对各个部件的泛化性操纵。

SAGE 构成了首个三维具身图文大模型系统,为机器人从感知、物理交互再到反馈的全链路提供了新思路,为机器人能够智能、通用地操控家具家电等复杂物体探寻了一条可行的道路。

系统介绍

图 4 展示了 SAGE 的基本流程。首先,一个能够解读上下文的指令解释模块将解析输出机器人的指令和其观察结果,将这些解析转化为下一步机器人举措程序以及与其相关的语义部分。接下来,SAGE 将语义部分(如容器 container)与需要进行操纵部分(如滑动按钮 slider button)对应起来,并生成举措(如按钮的 「按压 press」 举措)来完成任意。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 4:方法概览。

为了方便大家理解整个系统流程,一起来看看在无需样本的情况下,让机械臂运用操纵一款没见过的微波炉的例子。

指令解析:从视觉和指令输出到可执行的妙技指令

输出指令和 RGBD 图像观测后,解释器首先运用 VLM 和 GAPartNet [1] 生成了场景形容。随后,LLM(GPT-4)将指令和场景形容作为输出,生成语义部件和举措程序。或者也可以在这个环节输出一个特定的用户手册。LLM 将基于输出生成一个可操纵部件的目标。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 5:场景形容的生成(以 zero-shot 运用微波炉为例)。

为了更好地协助举措生成,场景形容包含物体信息、部件信息以及一些与互动相关的信息。在生成场景形容之前,SAGE 还将采用专家级 GAPart 模型 [1] 为 VLM 生成专家形容作为提示。这种兼收了两种模型的优点的方法效果良好。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 6:指令理解和运动计划(以 zero-shot 运用微波炉为例)。

部件交互信息的理解与感知

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 7:部件理解。

在输出观察结果的过程中,SAGE 综合了来自 GroundedSAM 的二维(2D)提示和来自 GAPartNet 的三维(3D)提示,然后这些提示被用作可操纵部件的具体定位。研讨团队利用 ScoreNet、非极大值抑制(NMS)和 PoseNet 等展示了新方法的感知结果。

其中:(1)对于部件感知评估基准,文章直接采用了 SAM [2]。然而,在操纵流程中,文章运用了 GroundedSAM,它也考虑到了作为输出的语义部件。(2)如果大型谈话模型(LLM)直接输出了一个可操纵部件的目标,那么定位过程将被绕过。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 8:部件理解(以 zero-shot 运用微波炉为例)。

举措生成

一旦将语义部件定位到可操纵部件之上,SAGE 将在这个部件上生成可执行的操纵举措。首先,SAGE 将估计部件的姿态,根据铰接类型(平移或旋转)计算铰接状态(部件轴线和位置)和可能的运动方向。然后,它再根据以上估算生成机器人操纵部件的举措。

在启动微波炉这个任意中,SAGE 首先预测机械臂应该以一个初始夹爪姿态作为主要举措。再根据 GAPartNet [1] 中定义的预定策略产生举措。这个策略是根据部件姿态和铰接状态确定的。例如,为了打开一个带有旋转铰接的门,起始位置可以在门的边缘或把手上,其轨迹是沿着门铰链定向的圆弧。

交互反馈

到目前为止,研讨团队只运用了一个初始观测来生成开环交互。这时,他们引入了一种机制,可以进一步利用在互动过程中获得的观测结果,更新感知结果并相应调整操纵。为了实现这一目标,研讨团队为互动过程中引入了一个两部分的反馈机制。

应当注意,在首次观测的感知过程中可能出现遮挡和估算错误。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 9:直接开门不能打开,该轮交互失败(以 zero-shot 运用微波炉为例)。

为了解决这些问题,研讨者们进而提出了一个模型,利用交互式观测 (Interactive Perception) 来增强操纵。在整个互动过程中,目标夹持器和部件状态的跟踪得以保持。如果出现显著的偏差,计划器可以自行选择以下四种状态之一:「继续」、「转移到下一步」、「停止并重新计划」或 「成功」。

例如,如果设置夹持器沿着一个关节旋转 60 度,但门只打开了 15 度,大型谈话模型(LLM)计划器会选择 「停止并重新计划」。这种互动跟踪模型确保 LLM 在互动过程中能够具体问题具体分析,在微波炉启动失败的挫折中也能重新「站起来」。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 10:通过交互反馈和重新计划,机器人意识到按钮打开的方法并成功。

实验结果

研讨团队首先搭建了一个大规模谈话指导的铰接物体交互的测试基准。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 11:SAPIEN 模拟实验。

他们运用了 SAPIEN 环境 [4] 进行了模拟实验,并设计了 12 项谈话引导的铰接物体操纵任意。对于微波炉、储物家具和橱柜的每个类别,各设计了 3 个任意,包括在不同初始状态下的开启状态和关闭状态。其他任意为「打开锅盖」、「按下遥控器的按钮」和「启动搅拌器」。实验结果显示,在几乎所有任意中 SAGE 都表现卓越。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 12:真机演示。

研讨团队同时也进行了大规模真实世界实验,他们运用 UFACTORY xArm 6 和多种不同的铰接物体进行操纵。上图的左上部分展示了一个启动搅拌器的案例。搅拌器的顶部被感知为一个用于装果汁的容器,但其实际功能需要按下一个按钮来开启。SAGE 的框架有效地连接了其语义和举措理解,并成功执行了任意。

上图右上部分展示了机器人,需要按下(下压)紧急停止按钮来停止操纵,旋转(向上)来重启。借助用户手册的辅助输出,在 SAGE 指导下的机械臂完成了这两个任意。上图底部的图片展示了开启微波炉任意中的更多细节。

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

图 13:更多真机演示和指令解读示例。

总结

SAGE是首个能够生成通用的家具家电等复杂铰接物体操控指令的三维视觉谈话模型框架。它通过在部件级别上连接物体语义和可操纵性理解,将谈话指令的举措转化为可执行的操控。

此外,文章还研讨了将通用的大型视觉 / 谈话模型与领域专家模型相结合的方法,以增强网络预测的全面性和正确性,更好地处理这些任意并实现最先进的性能。实验结果表明,该框架具有强大的泛化能力,可以在不同物体类别和任意上展示出优越的性能。此外,文章还为谈话指导的铰接物体操纵提供了一个新的基准测试。

团队介绍

SAGE 这一研讨成果来自斯坦福大学 Leonidas Guibas 教授实验室、北京大学王鹤教授具身感知和交互(EPIC Lab)以及智源人工智能研讨院。论文的作者为北京大学学生、斯坦福大学访问学者耿浩然(共同一作)、北京大学博士生魏松林(共同一作)、斯坦福大学博士生邓丛悦,沈博魁,指导老师为 Leonidas Guibas 教授和王鹤教授。

参考文献:

[1] Haoran Geng,Helin Xu,Chengyang Zhao,Chao Xu,Li Yi,Siyuan Huang,and He Wang。Gapartnet: Cross-category domaingeneralizable object perception and manipulation via generalizable and actionable parts。arXiv preprint arXiv:2211.05272,2022.

[2] Kirillov,Alexander,Eric Mintun,Nikhila Ravi,Hanzi Mao,Chloe Rolland,Laura Gustafson,Tete Xiao et al。"Segment anything." arXiv preprint arXiv:2304.02643 (2023).

[3] Zhang,Hao,Feng Li,Shilong Liu,Lei Zhang,Hang Su,Jun Zhu,Lionel M。Ni,and Heung-Yeung Shum。"Dino: Detr with improved denoising anchor boxes for end-to-end object detection." arXiv preprint arXiv:2203.03605 (2022).

[4] Xiang,Fanbo,Yuzhe Qin,Kaichun Mo,Yikuan Xia,Hao Zhu,Fangchen Liu,Minghua Liu et al。"Sapien: A simulated part-based interactive environment." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,pp。11097-11107。2020.

给TA打赏
共{{data.count}}人
人已打赏
工程

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

2024-1-8 14:47:00

工程

FATE 2.0版本重磅发布:实现异构联邦学习系统互联互通

2024-1-9 15:43:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索