具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]当我们拿起一个板滞手表时,从正面会看到表盘和指针,从侧面会看到表冠和表链,打开手表背面会看到繁杂的齿轮和机芯。每个视角都提供了不同的信息,将这些信息综合起来才能了解操纵对象的整体三维。想让

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

当我们拿起一个板滞手表时,从正面会看到表盘和指针,从侧面会看到表冠和表链,打开手表背面会看到繁杂的齿轮和机芯。每个视角都提供了不同的信息,将这些信息综合起来才能了解操纵对象的整体三维。

想让机器人在现实生活中学会实行繁杂任意,首先需要使机器人了解操纵对象和被操纵对象的属性,以及相应的三维操纵空间,包括物体位置、形状、物体之间的遮挡关系,以及对象与环境的关系等。

其次,机器人需要了解自然语言指令,对未来行动进行长期规划和高效实行。使机器人具备从环境感知到行动预计的本领是具有挑战性的。

近期,中国电信人工智能研究院(TeleAI)李学龙教授团队联合上海人工智能实验室、清华大学等单位,模拟人「感知—记忆—思维—想象」的认知过程,提出了多视角混合驱动的通用具身操纵算法,为机器人学习繁杂操纵给出了可行解决方案,论文被国际机器学习大会ICML 2024录用,为构建通用三维具身策略奠定了基础。SAM-E视频介绍如下:具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

近年来,视觉基础模型对图像的了解本领获得了飞速发展。然而,三维空间的了解还存在许多挑战。能否利用视觉大模型帮助具身智能体了解三维操纵场景,使其在三维空间中完成各种繁杂的操纵任意呢?受「感知—记忆—思维—想象」的认知过程启发,论文提出了全新的基于视觉分割模型Segment Anything(SAM)的具身基座模型SAM-E

首先,SAM- E具有富强可提醒(promptable)「感知」本领,将SAM特有的分割结构应用在语言指令的具身任意中,通过解析文本指令使模型关注到场景中的操纵物体。

随后,设计一种多视角Transformer,对深度特征、图像特征与指令特征进行混合与对齐,完成对象「记忆」与操纵「思考」,以此来了解板滞臂的三维操纵空间。

最后,提出了一种全新的行动序列预计网络,对多个时间步的行动序列进行建模,「想象」行动指令,完成了从三维场景感知到具身行动的端到端输出

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

论文名称:SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation

论文链接: https://sam-embodied.github.io/static/SAM-E.pdf

项目地址: https://sam-embodied.github.io/

从二维感知到三维感知

在数字时代的浪潮中,随着人工智能技术的飞速发展,我们正逐渐迈入一个崭新的时代——具身智能时代。赋予智能体以身体,使其具备与真实世界直接互动的本领,成为了当前研究的重点方向之一。

要完成这一目标,智能体必须具备富强的三维感知本领,以便能够准确地了解周围环境。

传统的二维感知手段在面对繁杂的立体空间时显得力不从心,如何让具身智能体通过学习掌握对三维空间的精准建模本领,成为了一个亟待解决的关键问题。

现有工作通过正视图、俯视图、侧视图等等多个视角的视图还原和重建三维空间,然而所需的计算资源较为庞大,同时在不同场景中具有的泛化本领有限。

为了解决这个问题,本工作探索一种新的途径——将视觉大模型的富强泛化本领应用于具身智能体的三维感知领域

SAM-E提出了使用具有富强泛化本领的通用视觉大模型 SAM 进行视觉感知,通过在具身场景的高效微调,将其具有的可泛化,可提醒(promptable)的特征提取本领、实例分割本领、繁杂场景了解等本领有效迁移到具身场景中。

为了进一步优化SAM基座模型的性能,引入了行动序列网络的概念,不仅能够捕捉单个行动的预计,还能够深入了解连续行动之间的内在联系,充分挖掘行动间的时序信息,从而进一步提高基座模型对具身场景的了解与适应本领。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

                                   图1. SAM-E总体框架

SAM-E方法

SAM-E方法的核心观点主要包含两个方面:

利用SAM的提醒驱动结构,构建了一个富强的基座模型,在任意语言指令下拥有出色的泛化性能。通过LoRA微调技术,将模型适配到具身任意中,进一步提升了其性能。

采用时序行动建模技术,捕捉行动序列中的时序信息,更好地了解任意的动态变化,并及时调整机器人的策略和实行方式,使机器人保持较高的实行效用。

可提醒感知与微调

SAM- E核心在于利用任意指令提醒驱动的网络结构,包含一个富强的视觉编码器和一个轻量的解码器。

在具身场景中任意「提醒」以自然语言的形式呈现,作为任意描述指令,视觉编码器发挥其可提醒的感知本领,提取与任意相关的特征。策略网络则充当解码器的角色,基于混合的视觉嵌入和语言指令输出行动。

在训练阶段,SAM-E 使用 LoRA 进行高效微调,大大减少了训练参数,使视觉基础模型能够快速适应于具身任意。

多视角三维混合

SAM-E引入了多视角Transformer网络,以混合多视角的视觉输入,深入了解三维空间。其工作分为两个阶段:视角内注意力(View-wise Attention)跨视角注意力(Cross-view Attention)

首先,对多视角特征分别进行视角内部的注意力处理,然后混合多个视角和语言描述进行混合视角注意力,完成多视角的信息混合和图像—语言对齐。

行动序列建模

在板滞臂实行中,末端实行器的位置和旋转通常呈现出连续而平滑的变化趋势。这一特性使得相邻行动之间存在着密切的联系和连续性。基于这一观察,提出了一种新颖的时间平滑假设,旨在充分利用相邻行动之间的内在关联,完成对行动序列的有效模仿学习

具体来说,SAM-E框架通过序列建模技术捕捉行动序列中的模式和关系,为行动预计提供一种隐性的先验知识,并对行动的连续性加以约束,从而昭著提升行动预计的准确性和一致性。

在实际应用中,SAM-E 允许在一次行动预计中实行后续的多步行动,极大地提高了实行效用。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

                              图3.连续行动的位置和旋转变化              

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

                                  图4.行动序列预计网络

实验

实验使用具有挑战性的板滞臂任意集合——RLBench,对多视角观测下的3D操纵任意进行了全面评估,SAM-E模型在多个方面均昭著优于其他传统方法。

多任意场景下,SAM-E模型昭著提高了任意成功率。

面对少量样本迁移至新任意的情况下,SAM-E凭借富强的泛化性能和高效的实行效用,有效提升新任意的表现。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

                                 图5.三维操纵任意结果比较

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

                                图6.三维操纵任意示例

此外,行动序列建模昭著提高了 SAM-E 的实行效用,同时在策略实行阶段,相比于单个行动,行动序列实行昭著降低了模型推理次数,测试中甚至能通过一次模型推理完成相应任意。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

                                       图7.任意实行中的模型推理频率

SAM-E在真实板滞臂控制中同样有效,使用两个第三人称相机捕获多视角视觉输入,在五个真实任意上具有实时的推理本领。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

                                               图8.真实板滞臂任意

总结

该工作开创性地提出了一种以多视角混合的基础的通用具身操纵算法,利用视觉分割大模型和多视角混合完成具身智能体的三维物理空间感知。

通过高效的参数微调,将预训练视觉模型迁移到具身场景中,能够解决自然语言指令的繁杂3D板滞臂操纵任意。此外,模型可以通过学习少量专家示例,快速泛化到新的任意中,展现出优越的训练效用和行动实行效用。

更重要的是,SAM-E以「感知—记忆—思维—想象」的认知链路,完成了从数据到行动的端到端映射。其意义不仅在于其在具身智能体中的应用,更在于对提升智能体认知本领的启发。

通过模拟人类的感知和决策方式,智能体能够更好地了解和适应繁杂的环境,从而在更广泛的领域发挥更大的作用。

团队负责人介绍:

 

李学龙,中国电信CTO、首席科学家,中国电信人工智能研究院(TeleAI)院长。主要关注人工智能、临地安防、图像处理、具身智能。

具身智能体三维感知新链条,TeleAI &上海AI Lab提出多视角混合具身模型「SAM-E」

给TA打赏
共{{data.count}}人
人已打赏
应用

大模型与具身智能的火花,ICML 2024 MFM-EAI Workshop征稿和挑战赛启动

2024-5-24 10:33:00

应用

时隔一天,百川大模型拿下国产第一,AI帮忙「百小应」上线

2024-5-24 10:46:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索