机器人是一种拥有无尽可能性的技术,尤其是当搭配了智能技术时。近段时间创造了许多变革性应用的大模型有望成为机器人的智慧大脑,帮助机器人感知和明白这个全国并制定决策和进行方案。近日,CMU 的 Yonatan Bisk 和 Google DeepMind 的夏斐(Fei Xia)领导的一个联合团队发布了一篇综述报告,介绍了本原模型在机器人规模的应用和发展情况。
开发能自主适应分歧情况的机器人是人类一直以来的一个梦想,但这却是一条漫长且充满挑拨的道路。
之前,利用传统深度进修方式的机器人感知系统通常需要大量有标注数据来训练监督进修模型,而如果通过众包方式来标注大型数据集,成本又非常高。
此外,由于经典监督进修方式的泛化才智有限,为了将这些模型部署到具体的场景或恣意,这些训练得到的模型通常还需要精心设计的规模适应技术,而这又通常需要进一步的数据网络和标注步骤。类似地,经典的机器人方案和操纵方式通常需要仔细地建模全国、智能体自身的动态和 / 或其它智能体的动态。这些模型通常针对各个具体情况或恣意构建,而当情况有变时,就需要重新构建模型。这说明经典模型的迁移性能也有限。
事实上,对于很多用例,构建有效模型的成本要么太高,要么完全无法办到。尽管基于深度(强化)进修的运动方案和操纵方式有助于缓解这些问题,但它们仍旧会受到分布移位(distribution shift)和泛化才智降低的影响。
虽然在开发通用型机器人系统上正面临诸多挑拨,但自然谈话处理(NLP)和计算机视觉(CV)规模近来却进展迅猛,其中包括用于 NLP 的大型谈话模型(LLM)、用于高保真图像生成的扩散模型、用于零样本 / 少样本生成等 CV 恣意的才智强大的视觉模型和视觉谈话模型。
所谓的「本原模型(foundation model)」其实就是大型预训练模型(LPTM)。它们具备强大的视觉和谈话才智。近来这些模型也已经在机器人规模得到应用,并有望赋予机器人系统开放全国感知、恣意方案甚至运动操纵才智。除了将现有的视觉和 / 或谈话本原模型用于机器人规模,也有钻研团队正针对机器人恣意开发本原模型,比如用于操控的作为模型或用于导航的运动方案模型。这些机器人本原模型展现出了强大的泛化才智,能适应分歧的恣意甚至具身方案。
也有钻研者直接将视觉 / 谈话本原模型用于机器人恣意,这展现出了将分歧机器人模块融合成单一统一模型的可能性。
尽管视觉和谈话本原模型在机器人规模前景可期,全新的机器人本原模型也正在开发中,但机器人规模仍有许多挑拨难以处理。
从实际部署角度看,模型往往是不可复现的,无法泛化到分歧的机器人形态(多具身泛化)或难以准确明白情况中的哪些行为是可行的(或可接受的)。此外大多数钻研应用的都是基于 Transformer 的架构,关注的重点是对物体和场景的语义感知、恣意层面的方案、操纵。而机器人系统的其它部分则少有人钻研,比如针对全国动态的本原模型或可以执行符号推理的本原模型。这些都需要跨规模泛化才智。
最后,我们也需要更多大型真实全国数据以及支持多样化机器人恣意的高保真度模拟器。
这篇综述论文归纳了机器人规模应用的本原模型,目标是明白本原模型能以怎样的方式帮助处理或缓解机器人规模的核心挑拨。
论文地址:https://arxiv.org/pdf/2312.08782.pdf
在这篇综述中,钻研者应用的「用于机器人的本原模型(foundation models for robotics)」这一术语涵盖两个方面:(1) 用于机器人的现有的(主要)视觉和谈话模型,主要是通过零样本和上下文进修;(2) 应用机器人生成的数据专门开发和利用机器人本原模型,以处理机器人恣意。他们归纳了用于机器人的本原模型的相关论文中的方式,并对这些论文的实验结果进行了元分析(meta-analysis)。
图 1 展示了这篇综述报告的主要组成部分。
图 2 给出了这篇综述的整体结构。
预备知识
为了帮助读者更好地明白这篇综述的内容,该团队首先给出了一节预备知识内容。
他们首先将介绍机器人学的本原知识以及当前最佳技术。这里主要聚焦于本原模型时代之前机器人规模应用的方式。这里简单说明一下,详情参阅原论文。
机器人的主要组件可分为感知、决策和方案、作为生成三大部分。
该团队将机器人感知分为被动感知、主动感知和状态估计。
在机器人决策和方案部分,钻研者分经典方案方式和基于进修的方案方式进行了介绍。
机器的作为生成也有经典操纵方式和基于进修的操纵方式。
接下来该团队又会介绍本原模型并主要集中在 NLP 和 CV 规模,涉及的模型包括:LLM、VLM、视觉本原模型、文本条件式图像生成模型。
机器人规模面临的挑拨
这一节归纳了典型机器人系统的分歧模块所面临的五大核心挑拨。图 3 给出了这五大挑拨的分类情况。
泛化
机器人系统往往难以准确地感知和明白其情况。它们也没有才智将在一个恣意上的训练成果泛化到另一个恣意,这会进一步限制它们在真实全国中的实用性。此外,由于机器人硬件分歧,将模型迁移用于分歧形态的机器人也很困难。通过将本原模型用于机器人,可以部分地处理泛化问题。
而在分歧机器人形态上泛化这样更进一步的问题还有待解答。
数据稀缺
为了开发出可靠的机器人模型,大规模的高质量数据至关重要。人们已经在努力尝试从现实全国网络大规模数据集,包括自动价值、机器人操作轨迹等。并且从人类演示网络机器人数据的成本很高。而由于恣意和情况的多样性,在现实全国网络足够且广泛的数据的过程还会更加复杂。此外,在现实全国网络数据还会有安全方面的疑虑。
为了处理这些挑拨,许多钻研工作都尝试了在模拟情况中生成合成数据。这些模拟能提供真实感很强的虚拟全国,让机器人可以在接近真实的场景中进修和应用自己的技能。但是,应用模拟情况也有局限性,尤其是在物体的多样性方面,这使得所学到的技能难以直接用于真实全国情况。
另外,在现实全国中,大规模网络数据非常困难,而要网络到训练本原模型所应用的互联网规模级的图像 / 文本数据,那就更困难了。
一种颇具潜力的方式是协作式数据网络,即将分歧实验室情况和机器人类型的数据网络到一起,如图 4a 所示。但是,该团队深度钻研了 Open-X Embodiment Dataset,发现在数据类型可用性方面还存在一些局限性。
模型和原语要求
经典的方案和操纵方式通常需要精心设计的情况和机器人模型。之前的基于进修的方式(如模仿进修和强化进修)是以端到端的方式训练策略,也就是直接根据感官输入获取操纵输出,这样能避免构建和应用模型。这些方式能部分处理依赖明确模型的问题,但它们往往难以泛化用于分歧的情况和恣意。
这就引出了两个问题:(1) 怎么进修能很好泛化的与模型无关的策略?(2) 怎么进修好的全国模型,以便应用经典的基于模型的方式?
恣意典型
为了得到通用型智能体,一大关键挑拨是明白恣意典型并将其根植于机器人对全国的当前明白中。通常而言,这些恣意典型由用户提供,但用户只能有限地明白机器人的认知和物理才智的局限性。这会带来很多问题,不仅包括能为这些恣意典型提供什么样的最佳实践,而且还有起草这些典型是否足够自然和简单。基于机器人对自身才智的明白,明白和处理恣意典型中的模糊性也充满挑拨。
不确定性和安全性
为了在现实全国中部署机器人,一大关键挑拨是处理情况和恣意典型中固有的不确定性。根据来源的分歧,不确定性可以分为认知不确定性(由缺乏知识导致不确定)和偶然不确定性(情况中固有的噪声)。
不确定性量化(UQ)的成本可能会高得让钻研和应用难以为继,也可能让下游恣意无法被最优地处理。有鉴于本原模型大规模过度参数化的性质,为了在不牺牲模型泛化性能的同时实现可扩展性,提供能保留训练方案同时又尽可能不改变底层架构的 UQ 方式至关重要。设计能提供对自身行为的可靠置信度估计,并反过来智能地请求清晰说明反馈的机器人仍然是一个尚未处理的挑拨。
近来虽有一些进展,但要确保机器人有才智进修经验,从而在全新情况中微调自己的策略并确保安全,这一点依然充满挑拨。
当前钻研方式概况
这一节归纳了用于机器人的本原模型的当前钻研方式。该团队将机器人规模应用的本原模型分成了两大类:用于机器人的本原模型和机器人本原模型(RFM)。
用于机器人的本原模型主要是指以零样本的方式将视觉和谈话本原模型用于机器人,也就是说无需额外的微调或训练。机器人本原模型则可能应用视觉 – 谈话预训练初始化来进行热启动和 / 或直接在机器人数据集上训练模型。
图 5 给出了分类详情。
用于机器人的本原模型
这一小节关注的是视觉和谈话本原模型在机器人规模的零样本应用。这主要包括将 VLM 以零样本方式部署到机器人感知应用中,将 LLM 的上下文进修才智用于恣意层面和运动层面的方案以及作为生成。图 6 展示了一些代表性的钻研工作。
机器人本原模型(RFM)
随着包含来自真实机器人的状态 – 作为对的机器人数据集的增长,机器人本原模型(RFM)类别同样变得越来越有可能成功。这些模型的特点是应用了机器人数据来训练模型处理机器人恣意。
这一小节将归纳和讨论分歧类型的 RFM。首先是能在单一机器人模块中执行一类恣意的 RFM,这也被称为单目标机器人本原模型。比如能生成操纵机器人的低层级作为的 RFM 或可以生成更高层运动方案的模型。
之后会介绍能在多个机器人模块中执行恣意的 RFM,也就是能执行感知、操纵甚至非机器人恣意的通用模型。
本原模型能怎样帮助处理机器人挑拨?
前面列出了机器人规模面临的五大挑拨。这一小节将介绍本原模型可以怎样帮助处理这些挑拨。
所有与视觉信息相关的本原模型(如 VFM、VLM 和 VGM)都可用于机器人的感知模块。而 LLM 的功能更多样,可用于方案和操纵。机器人本原模型(RFM)通常用于方案和作为生成模块。表 1 归纳了处理分歧机器人挑拨的本原模型。
从表中可以看到,所有本原模型都擅长泛化各种机器人模块的恣意。LLM 尤其擅长恣意典型。另一方面,RFM 擅长应对动态模型的挑拨,因为大多数 RFM 都是无模型方式。对于机器人感知来说,泛化才智和模型的挑拨是相互耦合的,因为如果感知模型已经具有很好的泛化才智,就不需要获取更多数据来执行规模适应或额外微调。
另外,在安全挑拨方面还缺乏钻研,这会是一个重要的未来钻研方向。
当前的实验和评估概况
这一节归纳了当前钻研成果的数据集、基准和实验。
数据集和基准
仅依靠从谈话和视觉数据集学到的知识是存在局限的。正如一些钻研成果表明的那样,摩擦力和重量等一些概念无法仅通过这些模态轻松进修到。
因此,为了让机器人智能体能更好地明白全国,钻研社区不仅在适应来自谈话和视觉规模的本原模型,也在推进开发用于训练和微调这些模型的大型多样化多模态机器人数据集。
目前这些工作分为两大方向:从现实全国网络数据以及从模拟全国网络数据再将其迁移到现实全国。每个方向都各有优劣。其中从现实全国网络的数据集包括 RoboNet、Bridge Dataset V1、Bridge-V2、. Language-Table、RT-1 等。而常用的模拟器有 Habitat、AI2THOR、Mujoco、AirSim、Arrival Autonomous Racing Simulator、Issac Gym 等。
对当前方式的评估分析
该团队的另一大贡献是对本综述报告中提到的论文中的实验进行了元分析,这可以帮助作者理清以下问题:
1. 人们钻研处理的是哪些恣意?
2. 训练模型应用了哪些数据集或模拟器?测试用的机器人平台有哪些?
3. 钻研社区应用了哪些本原模型?处理恣意的效果如何?
4. 这些方式中更常应用哪些本原模型?
表 2-7 和图 11 给出了分析结果。
该团队从中归纳出了一些关键趋势:
钻研社区对机器人操作恣意的关注不平衡
泛化才智和稳健性需要提升
对低层作为的探索很有限
操纵频率太低,无法部署在真实机器人中
缺乏统一的测试基准
讨论和未来方向
该团队归纳了一些仍待处理的挑拨和值得讨论的钻研方向:
为机器人具身设定标准本原(grounding)
安全和不确定性
端到端方式和模块化方式是否无法兼容?
对具身的物理变化的适应才智
全国模型方式还是与模型无关的方式?
新型机器人平台和多感官信息
持续进修
标准化和可复现才智