RT-H 在一系列机器人使命中的表现都优于 RT-2。
随着 GPT-4 等大型谈话模型与机器人钻研的结合愈发紧密,人工智能正在越来越多地走向现实世界,因此具身智能相关的钻研也正受到越来越多的关注。在众多钻研项目中,谷歌的「RT」系列机器人始终走在前沿(参见《大模型正在重构机器人,谷歌 Deepmind 这样定义具身智能的未来》)。
谷歌 DeepMind 去年 7 月推出的 RT-2:全球第一个控制机器人的视觉 – 谈话 – 举措(VLA)模型。只需要像对话一样下达命令,它就能在一堆图片中辨认出霉霉,并送给她一罐可乐。
如今,这个机器人又进化了。最新版的 RT 机器人名叫「RT-H」,它能通过将复杂使命分解成简单的谈话指令,再将这些指令转化为机器人举措,来提高使命执行的准确性和进修效率。举例来说,给定一项使命,如「盖上开心果罐的盖子」和场景图像,RT-H 会利用视觉谈话模型(VLM)预计谈话举措(motion),如「向前移动手臂」和「向右旋转手臂」,然后根据这些谈话举措,预计机器人的举措(action)。
这个举措层级(action hierarchy)对于提高机器人完成使命的准确性和进修效率非常有帮助,使得 RT-H 在一系列机器人使命中的表现都优于 RT-2。
以下是论文的详细信息。
论文概览
论文标题:RT-H: Action Hierarchies Using Language
论文链接:https://arxiv.org/pdf/2403.01823.pdf
项目链接:https://rt-hierarchy.github.io/
谈话是人类推理的引擎,它使我们能够将复杂概念分解为更简单的组成部分,纠正我们的误解,并在新环境中推广概念。近年来,机器人也开始利用谈话高效、组合式的结构来分解高层次概念、提供谈话修改或实现在新环境下的泛化。
这些钻研通常遵循一个共同的范式:面对一个用谈话描写的高层使命(如「拿起可乐罐」),它们进修将观看和谈话中的使命描写映射到低层次机器人举措的计谋,这需要通过大规模多使命数据集实现。谈话在这些场景中的优势在于编码类似使命之间的同享结构(例如,「拿起可乐罐」与「拿起苹果」),从而减少了进修从使命到举措映射所需的数据。然而,随着使命变得更加多样化,描写每个使命的谈话也变得更加多样(例如,「拿起可乐罐」与「倒一杯水」),这使得仅通过高层次谈话进修不同使命之间的同享结构变得更加困难。
为了进修多样化的使命,钻研者的目标是更准确地捕捉这些使命之间的相似性。
他们发现谈话不仅可以描写高层次使命,还能细致说明完成使命的方法 —— 这种表示更细腻,更贴近具体举措。例如,「拿起可乐罐」这一使命可以分解为一系列更细节的步骤,即「谈话举措(language motion)」:首先「手臂向前伸」,接着「抓紧罐子」,最后「手臂上举」。钻研者的核心洞见是,通过将谈话举措作为连接高层次使命描写与底层次举措之间的中间层,可以利用它们来构建一个通过谈话举措形成的举措层级。
建立这种举措层级有几大好处:
它使不同使命之间在谈话举措层面上能够更好地同享数据,使得谈话举措的组合和在多使命数据集中的泛化性得到增强。例如,「倒一杯水」与「拿起可乐罐」虽在语义上有所不同,但在执行到捡起物体之前,它们的谈话举措完全一致。
谈话举措不是简单的固定原语,而是根据当前使命和场景的具体情况通过指令和视觉观看来进修的。比如,「手臂向前伸」并没具体说明移动的速度或方向,这取决于具体使命和观看情况。进修到的谈话举措的上下文依赖性和灵活性为我们提供了新的能力:当计谋未能百分百成功时,允许人们对谈话举措进行修改(见图 1 中橙色区域)。进一步地,机器人甚至可以从这些人类的修改中进修。例如,在执行「拿起可乐罐」的使命时,如果机器人提前关闭了夹爪,我们可以指导它「保持手臂前伸的姿势更久一些」,这种在特定场景下的微调不仅易于人类指导,也更易于机器人进修。
鉴于谈话举措存在以上优势,来自谷歌 DeepMind 的钻研者设计了一个端到端的框架 ——RT-H(Robot Transformer with Action Hierarchies,即使用举措层级的机器人 Transformer),专注于进修这类举措层级。RT-H 通过分析观看结果和高层次使命描写来预计当前的谈话举措指令,从而在细节层面上理解如何执行使命。接着,利用这些观看、使命以及推断出的谈话举措,RT-H 为每一步骤预计相应的举措,谈话举措在此过程中提供额外的上下文,帮助更准确地预计具体举措(图 1 紫色区域)。
此外,他们还开发了一种自动化方法,从机器人的本体感受中提取简化的谈话举措集,建立了包含超过 2500 个谈话举措的丰富数据库,无需手动标注。
RT-H 的模型架构借鉴了 RT-2,后者是一个在互联网规模的视觉与谈话数据上共同训练的大型视觉谈话模型(VLM),旨在提升计谋进修效果。RT-H 采用单一模型同时处理谈话举措和举措查询,充分利用广泛的互联网规模知识,为举措层级的各个层次提供支持。
在实验中,钻研者发现使用谈话举措层级在处理多样化的多使命数据集时能够带来显著的改善,相比 RT-2 在一系列使命上的表现提高了 15%。他们还发现,对谈话举措进行修改能够在同样的使命上达到接近完美的成功率,展示了进修到的谈话举措的灵活性和情境适应性。此外,通过对模型进行谈话举措干预的微调,其表现超过了 SOTA 交互式模仿进修方法(如 IWR)50%。最终,他们证明了 RT-H 中的谈话举措能够更好地适应场景和物体变化,相比于 RT-2 展现出了更优的泛化功能。
RT-H 架构详解
为了有效地捕获跨多使命数据集的同享结构(不由高层次使命描写表征),RT-H 旨在进修显式利用举措层级计谋。
具体来说,钻研团队将中间谈话举措预计层引入计谋进修中。描写机器人细粒度行为的谈话举措可以从多使命数据集中捕获有用的信息,并可以产生高功能的计谋。当进修到的计谋难以执行时,谈话举措可以再次发挥作用:它们为与给定场景相关的在线人工修改提供了直观的界面。经过谈话举措训练的计谋可以自然地遵循低水平的人工修改,并在给定修改数据的情况下成功完成使命。此外,该计谋甚至可以根据谈话修改数据进行训练,并进一步提高其功能。
如图 2 所示,RT-H 有两个关键阶段:首先根据使命描写和视觉观看预计谈话举措,然后根据预计的谈话举措、具体使命、观看结果推断精确的举措。
RT-H 使用 VLM 主干网络并遵循 RT-2 的训练过程来进行实例化。与 RT-2 类似,RT-H 通过协同训练利用了互联网规模数据中自然谈话和图像处理方面的大量先验知识。为了将这些先验知识合并到举措层级的所有层次中,单个模型会同时进修谈话举措和举措查询。
实验结果
为了全面评估 RT-H 的功能,钻研团队设置了四个关键的实验问题:
Q1(功能):带有谈话的举措层级是否可以提高多使命数据集上的计谋功能?
Q2(情境性):RT-H 学得的谈话举措是否与使命和场景情境相关?
Q3(纠正):在谈话举措修改上进行训练比远程(teleoperated)修改更好吗?
Q4(概括):举措层级是否可以提高分布外设置的稳健性?
数据集方面,该钻研采用一个大型多使命数据集,其中包含 10 万个具有随机对象姿态和背景的演示样本。该数据集结合了以下数据集:
Kitchen:RT-1 和 RT-2 使用的数据集,由 70K 样本中的 6 个语义使命类别组成。
Diverse:一个由更复杂的使命组成的新数据集,具有超过 24 个语义使命类别,但只有 30K 样本。
该钻研将此组合数据集称为 Diverse+Kitchen (D+K) 数据集,并使用自动化程序对其进行谈话举措标记。为了评估在完整 Diverse+Kitchen 数据集上训练的 RT-H 的功能,该钻研针对八项具体使命进行了评估,包括:
1)将碗直立放在柜台上
2)打开开心果罐
3)关闭开心果罐
4)将碗移离谷物分配器
5)将碗放在谷物分配器下方
6)将燕麦片放入碗中
7)从篮子里拿勺子
8)从分配器中拉出餐巾
选择这八个使命是因为它们需要复杂的举措序列和高精度。
下表给出了在 Diverse+Kitchen 数据集或 Kitchen 数据集上训练时 RT-H、RT-H-Joint 和 RT-2 训练检查点的最小 MSE。RT-H 的 MSE 比 RT-2 低大约 20%,RTH-Joint 的 MSE 比 RT-2 低 5-10%,这表明举措层级有助于改进大型多使命数据集中的离线举措预计。RT-H (GT) 使用 ground truth MSE 指标,与端到端 MSE 的差距为 40%,这说明正确标记的谈话举措对于预计举措具有很高的信息价值。
图 4 展示了几个从 RT-H 在线评估中获取的上下文举措示例。可以看到,相同的谈话举措通常会导致完成使命的举措发生微妙的变化,同时仍尊重更高级别的谈话举措。
如图 5 所示,钻研团队通过在线干预 RT-H 中的谈话举措来展示 RT-H 的灵活性。
该钻研还用比较实验来分析修改的作用,结果如下图 6 所示:
如图 7 所示,RT-H 和 RT-H-Joint 对场景变化明显更加稳健:
实际上,看似不同的使命之间具备一些同享结构,例如这些使命中每一个都需要一些拾取行为来开始使命,并且通过进修跨不同使命的谈话举措的同享结构,RT-H 可以完成拾取阶段而无需任何修改。
即使当 RT-H 不再能够泛化其谈话举措预计时,谈话举措修改通常也可以泛化,因此只需进行一些修改就可以成功完成使命。这表明谈话举措在扩大新使命数据收集方面的潜力。
感兴趣的读者可以阅读论文原文,了解更多钻研内容。