一篇综述,看穿底子模型+机器人的发展路径

底子模型 (Foundation Models) 已经在过去几年里重塑了自然说话处理 (NLP) 和计算机视觉 (CV) 研讨的格局,那么底子模型能为机器人带来怎样的可能性?这篇综述或许有你想要的答案。机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和懂得这个天下并制定决策和进行方案。近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍

底子模型 (Foundation Models) 已经在过去几年里重塑了自然说话处理 (NLP) 和计算机视觉 (CV) 研讨的格局,那么底子模型能为机器人带来怎样的可能性?这篇综述或许有你想要的答案。

机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和懂得这个天下并制定决策和进行方案。

近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍了底子模型在机器人范畴的应用和发展情况。报告的 first aurthor 是 CMU 的博士四年级学生胡亚非(Yafei Hu),他的研讨集中在机器人和人工智能的交叉应用上。与他合作的是谢泉廷(Quanting Xie),专注于通过底子模型探索具身智能(embodied intelligence)。

一篇综述,看穿底子模型+机器人的发展路径

论文地址:https://arxiv.org/pdf/2312.08782.pdf

开发能自主适应分别情况的机器人是人类一直以来的一个梦想,但这却是一条漫长且充满寻衅的道路。之前,利用传统深度进修格式的机器人感知系统通常需要大量有标注数据来训练监督进修模型,而如果通过众包方式来标注大型数据集,成本又非常高。

此外,由于经典监督进修格式的泛化本领有限,为了将这些模型部署到具体的场景或恣意,这些训练得到的模型通常还需要精心设计的范畴适应技术,而这又通常需要进一步的数据网络和标注步骤。类似地,经典的机器人方案和操纵格式通常需要仔细地建模天下、智能体自身的动态和 / 或其它智能体的动态。这些模型通常是针对各个具体情况或恣意构建的,而当情况有变时,就需要重新构建模型。这说明经典模型的迁移性能也有限。

事实上,对于很多用例,构建有效模型的成本要么太高,要么就完全无法办到。尽管基于深度(强化)进修的运动方案和操纵格式有助于缓解这些问题,但它们仍旧会受到分布移位(distribution shift)和泛化本领降低的影响。

虽然在开发通用型机器人系统上正面临诸多寻衅,但自然说话处理(NLP)和计算机视觉(CV)范畴近来却进展迅猛,其中包括用于 NLP 的大型说话模型(LLM)、用于高保真图像生成的扩散模型、用于零样本 / 少样本生成等 CV 恣意的本领强大的视觉模型和视觉说话模型。

所谓的「底子模型(foundation model)」其实就是大型预训练模型(LPTM)。它们具备强大的视觉和说话本领。近来这些模型也已经在机器人范畴得到应用,并有望赋予机器人系统开放天下感知、恣意方案甚至运动操纵本领。除了将现有的视觉和 / 或说话底子模型用于机器人范畴,也有研讨团队正针对机器人恣意开发底子模型,比如用于操控的举措模型或用于导航的运动方案模型。这些机器人底子模型展现出了强大的泛化本领,能适应分别的恣意甚至具身方案。也有研讨者直接将视觉 / 说话底子模型用于机器人恣意,这展现出了将分别机器人模块融合成单一统一模型的可能性。

尽管视觉和说话底子模型在机器人范畴前景可期,全新的机器人底子模型也正在开发中,但机器人范畴仍有许多寻衅难以处理。

从实际部署角度看,模型往往是不可复现的,无法泛化到分别的机器人形态(多具身泛化)或难以准确懂得情况中的哪些行为是可行的(或可接受的)。此外,大多数研讨利用的都是基于 Transformer 的架构,关注的重点是对物体和场景的语义感知、恣意层面的方案、操纵。而机器人系统的其它部分则少有人研讨,比如针对天下动态的底子模型或可以执行符号推理的底子模型。这些都需要跨范畴泛化本领。

最后,我们也需要更多大型真实天下数据以及支持多样化机器人恣意的高保真度模拟器。

这篇综述论文总结了机器人范畴利用的底子模型,目标是懂得底子模型能以怎样的方式帮助处理或缓解机器人范畴的核心寻衅。

在这篇综述中,研讨者利用的「用于机器人的底子模型(foundation models for robotics)」这一术语涵盖两个方面:(1) 用于机器人的现有的(主要)视觉和说话模型,主要是通过零样本和上下文进修;(2) 利用机器人生成的数据专门开发和利用机器人底子模型,以处理机器人恣意。他们总结了用于机器人的底子模型的相关论文中的格式,并对这些论文的实验结果进行了元分析(meta-analysis)。

一篇综述,看穿底子模型+机器人的发展路径

一篇综述,看穿底子模型+机器人的发展路径

综述的整体结构

预备知识

为了帮助读者更好地懂得这篇综述的内容,该团队首先给出了一节预备知识内容。

他们首先将介绍机器人学的底子知识以及当前最佳技术。这里主要聚焦于底子模型时代之前机器人范畴利用的格式。这里进行简单说明,详情参阅原论文。 

机器人的主要组件可分为感知、决策和方案、举措生成三大部分。该团队将机器人感知分为被动感知、主动感知和状态估计。

在机器人决策和方案部分,研讨者分经典方案格式和基于进修的方案格式进行了介绍。

机器的举措生成也有经典操纵格式和基于进修的操纵格式。

接下来该团队又会介绍底子模型并主要集中在 NLP 和 CV 范畴,涉及的模型包括:LLM、VLM、视觉底子模型、文本条件式图像生成模型。

机器人范畴面临的寻衅

典型机器人系统的分别模块所面临的五大核心寻衅。图 3 展示了这五大寻衅的分类情况。

一篇综述,看穿底子模型+机器人的发展路径

泛化

机器人系统往往难以准确地感知和懂得其情况。它们也没有本领将在一个恣意上的训练成果泛化到另一个恣意,这会进一步限制它们在真实天下中的实用性。此外,由于机器人硬件分别,将模型迁移用于分别形态的机器人也很困难。通过将底子模型用于机器人,可以部分地处理泛化问题。而在分别机器人形态上泛化这样更进一步的问题还有待解答。

数据稀缺

为了开发出可靠的机器人模型,大规模的高质量数据至关重要。人们已经在努力尝试从现实天下网络大规模数据集,包括自动驾驶、机器人操作轨迹等。并且从人类演示网络机器人数据的成本很高。不过,由于恣意和情况的多样性,在现实天下网络足够且广泛的数据的过程还会更加复杂。在现实天下网络数据还会有安全方面的疑虑。另外,在现实天下中,大规模网络数据非常困难,而要网络到训练底子模型所利用的互联网规模级的图像/文本数据,那就更困难了。

为了处理这些寻衅,许多研讨工作都尝试了在模拟情况中生成合成数据。这些模拟能提供真实感很强的虚拟天下,让机器人可以在接近真实的场景中进修和利用自己的技能。但是,利用模拟情况也有局限性,尤其是在物体的多样性方面,这使得所学到的技能难以直接用于真实天下情况。

一种颇具潜力的格式是协作式数据网络,即将分别实验室情况和机器人类型的数据网络到一起,如图 4a 所示。但是,该团队深度研讨了 Open-X Embodiment Dataset,发现在数据类型可用性方面还存在一些局限性。

一篇综述,看穿底子模型+机器人的发展路径

模型和原语要求

经典的方案和操纵格式通常需要精心设计的情况和机器人模型。之前的基于进修的格式(如模仿进修和强化进修)是以端到端的方式训练策略,也就是直接根据感官输入获取操纵输出,这样能避免构建和利用模型。这些格式能部分处理依赖明确模型的问题,但它们往往难以泛化用于分别的情况和恣意。

这就引出了两个问题:(1) 怎么进修能很好泛化的与模型无关的策略?(2) 怎么进修好的天下模型,以便应用经典的基于模型的格式?

恣意典型

为了得到通用型智能体,一大关键寻衅是懂得恣意典型并将其根植于机器人对天下的当前懂得中。通常而言,这些恣意典型由用户提供,但用户只能有限地懂得机器人的认知和物理本领的局限性。这会带来很多问题,包括能为这些恣意典型提供什么样的最佳实践,还有起草这些典型是否足够自然和简单。基于机器人对自身本领的懂得,懂得和处理恣意典型中的模糊性也充满寻衅。

不确定性和安全性

为了在现实天下中部署机器人,一大关键寻衅是处理情况和恣意典型中固有的不确定性。根据来源的分别,不确定性可以分为认知不确定性(由缺乏知识导致不确定)和偶然不确定性(情况中固有的噪声)。

不确定性量化(UQ)的成本可能会高得让研讨和应用难以为继,也可能让下游恣意无法被最优地处理。有鉴于底子模型大规模过度参数化的性质,为了在不牺牲模型泛化性能的同时实现可扩展性,提供能保留训练方案同时又尽可能不改变底层架构的 UQ 格式至关重要。设计能提供对自身行为的可靠置信度估计,并反过来智能地请求清晰说明反馈的机器人仍然是一个尚未处理的寻衅。

近来虽有一些进展,但要确保机器人有本领进修经验,从而在全新情况中微调自己的策略并确保安全,这一点还依然充满寻衅。

当前研讨格式概况

本文还总结了用于机器人的底子模型的当前研讨格式。该团队将机器人范畴利用的底子模型分成了两大类:用于机器人的底子模型和机器人底子模型(RFM)。

用于机器人的底子模型主要是指以零样本的方式将视觉和说话底子模型用于机器人,也就是说无需额外的微调或训练。机器人底子模型则可能利用视觉 – 说话预训练初始化来进行热启动和 / 或直接在机器人数据集上训练模型。

一篇综述,看穿底子模型+机器人的发展路径

分类详情

用于机器人的底子模型

这一部分关注的是视觉和说话底子模型在机器人范畴的零样本应用。这主要包括将 VLM 以零样本方式部署到机器人感知应用中,将 LLM 的上下文进修本领用于恣意层面和运动层面的方案以及举措生成。图 6 展示了一些代表性的研讨工作。

一篇综述,看穿底子模型+机器人的发展路径

机器人底子模型(RFM)

一篇综述,看穿底子模型+机器人的发展路径

随着包含来自真实机器人的状态-举措对的机器人数据集的增长,机器人底子模型(RFM)类别同样变得越来越有可能成功。这些模型的特点是利用了机器人数据来训练模型处理机器人恣意。

研讨团队总结和讨论了分别类型的 RFM。首先是能在单一机器人模块中执行一类恣意的 RFM,这也被称为单目标机器人底子模型。比如能生成操纵机器人的低层级举措的 RFM 或可以生成更高层运动方案的模型。在文章中还会介绍能在多个机器人模块中执行恣意的 RFM,也就是能执行感知、操纵甚至非机器人恣意的通用模型。

底子模型能怎样帮助处理机器人寻衅?

前文列出了机器人范畴面临的五大寻衅。这里将介绍底子模型可以怎样帮助处理这些寻衅。

所有与视觉信息相关的底子模型(如 VFM、VLM 和 VGM)都可用于机器人的感知模块。而 LLM 的功能更多样,可用于方案和操纵。机器人底子模型(RFM)通常用于方案和举措生成模块。表 1 总结了处理分别机器人寻衅的底子模型。

一篇综述,看穿底子模型+机器人的发展路径

从表中可以看到,所有底子模型都擅长泛化各种机器人模块的恣意。LLM 尤其擅长恣意典型。另一方面,RFM 擅长应对动态模型的寻衅,因为大多数 RFM 都是无模型格式。对于机器人感知来说,泛化本领和模型的寻衅是相互耦合的,因为如果感知模型已经具有很好的泛化本领,就不需要获取更多数据来执行范畴适应或额外微调。

另外,在安全寻衅方面还缺乏研讨,这会是一个重要的未来研讨方向。

当前的实验和评估概况

这一部分总结了当前研讨成果的数据集、基准和实验。

数据集和基准

仅依靠从说话和视觉数据集学到的知识是存在局限的。正如一些研讨成果表明的那样,摩擦力和重量等一些概念无法仅通过这些模态轻松进修到。

因此,为了让机器人智能体能更好地懂得天下,研讨社区不仅在适应来自说话和视觉范畴的底子模型,也在推进开发用于训练和微调这些模型的大型多样化多模态机器人数据集。

目前这些工作分为两大方向:从现实天下网络数据以及从模拟天下网络数据再将其迁移到现实天下。每个方向都各有优劣。其中从现实天下网络的数据集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模拟器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。

对当前格式的评估分析(Meta-Analysis)

该团队的另一大贡献是对本综述报告中提到的论文中的实验进行了元分析,这可以为理清以下问题有所帮助:

1. 人们研讨处理的是哪些恣意?

2. 训练模型利用了哪些数据集或模拟器?测试用的机器人平台有哪些?

3. 研讨社区利用了哪些底子模型?处理恣意的效果如何?

4. 这些格式中更常利用哪些底子模型?

表 2-7 和图 11 给出了分析结果。

一篇综述,看穿底子模型+机器人的发展路径

一篇综述,看穿底子模型+机器人的发展路径

一篇综述,看穿底子模型+机器人的发展路径

一篇综述,看穿底子模型+机器人的发展路径

该团队通过 Meta-analysis 得到的一些主要观察:

研讨社区对机器人操作恣意(Manipulation)的关注不平衡

泛化本领(Generalization)和稳健性需要提升

对低层举措(Low-level Control)的探索很有限

操纵频率太低(<15Hz),无法部署在真实机器人中(一般需要 100Hz)

缺乏统一的测试基准(Metrics)和测试平台(Simulation or Hardware),使得对比变得非常困难。

讨论和未来方向

该团队总结了一些仍待处理的寻衅和值得讨论的研讨方向:

如何为机器人具身设定标准底子(grounding)?

安全(Safety)和不确定性(Uncertainty)?

端到端格式(end-to-end)和模块化(Modular)格式是否无法兼容?

对具身的物理变化的适应本领

天下模型(World Model)格式还是与模型无关的格式?

新型机器人平台和多感官信息

持续进修(Continue Learning)

标准化和可复现本领(Reproducibility)

作者 website:

Yonatan Bisk: https://yonatanbisk.com/

Fei Xia: https://fxia22.github.io/

Yafei Hu: https://jeffreyyh.github.io/

Quanting Xie: https://quantingxie.github.io/

给TA打赏
共{{data.count}}人
人已打赏
应用

无问芯穹夏立雪:目标将大模型算力本钱压缩四个数量级,为算力市场带来增量

2023-12-25 15:30:00

应用

昆仑万维「天工SkyAgents」Beta版全网测试

2023-12-25 18:39:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索