全世界呆板人共用一个大脑,googleDeepMind已经完成了第一步

具身智能,首先就是要共用 AI。过去一年,生成式人工智能发展的核心关键词,就是「大」。人们逐渐接受了强化进修先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界知识,从而拟合出更加智能的结果。那么,为什么人工智能的进展还没有转化成科幻片中那种全能管家呆板人呢?能清理桌子、叠衣服、做早餐的呆板人在哪里?一个重要的原因是呆板人领域很难「大力出奇迹」,生成式 AI 的文字或图片训练数据在网络上就能轻

具身智能,首先就是要共用 AI。

过去一年,生成式人工智能发展的核心关键词,就是「大」。

人们逐渐接受了强化进修先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界知识,从而拟合出更加智能的结果。

那么,为什么人工智能的进展还没有转化成科幻片中那种全能管家呆板人呢?能清理桌子、叠衣服、做早餐的呆板人在哪里?

一个重要的原因是呆板人领域很难「大力出奇迹」,生成式 AI 的文字或图片训练数据在网络上就能轻松获取,而呆板人的训练数据通常是由研讨人员在实验室里根据具体的使命一个一个地创建的。这个过程往往漫长而又乏味。

如果没有大量数据的支撑,呆板人将无法脱离实验室,无法独立履行做早餐等使命。令人惊艳的呆板人研讨成果,往往也只是某一个实验室研发出来的某一款呆板人在履行某几项使命,对于其他实验室的呆板人研讨,可参考性有限。

全世界呆板人共用一个大脑,googleDeepMind已经完成了第一步

特斯拉呆板人 Optimus 在远程操控下叠衣服。

如果有一个汇集了许多呆板人经验的「课本」,新呆板人可以从中一次性进修,让呆板人共享训练数据。这类做法是否能突破手动让呆板人履行新使命带来的时间与精力限制?

为了得到问题的答案,由google Deepmind 发起,来自北美、欧洲、亚洲的 34 个呆板人实验室共同启动了 RT-X 项目。RT-X 项目的目标是汇集数据、资源和代码,让通用呆板人走进现实。该项目的主要参与者加州大学伯克利分校的 Sergey Levine 教授和 Google DeepMind 的资深科学家 Karol Hausman 联合撰写了「THE GLOBAL PROJECT TO MAKE A GENERAL ROBOTIC BRAIN(打造通用呆板人大脑的全球合作项目)」一文,总结了 RT-X 项目取得的进展。

RT-X 项目至今都做了哪些努力,让我们一起来看看。

造通用呆板人,要从哪方面下手?

人类拥有强大的进修才智。我们的大脑在经过一点练习后,就可以指挥四肢行动,比如拿起工具、骑自行车或上车这类举动。换句话说,也就是我们的躯体发生了一些变化,但大脑可能理解。RT-X 的目标是让呆板人也拥有这类「思维方式」:使单个深度神经网络可能控制许多不同类型的呆板人。这类才智称为「交叉体现」。

然而「交叉体现」的问题在于,经过呆板人数据训练的深度神经网络能否「驾驭」各种各样的呆板人。一旦这些外观、物理特性和才智截然不同的呆板人能被单个神经网络「大一统」,那么将释放出大型数据集对呆板人进修的潜力。

RT-X 项目发布的 Open X-Embodiment 数据集规模庞大,目前它含有 22 种呆板人的近 100 万次试验数据,其中包括市场上常用的呆板臂。像拾取和放置物体、组装以及电缆布线这类专项使命的数据也都包含在其中,共有约 500 种不同的操作和数千种与其他物体的互动数据。Open X-Embodiment 是目前最大的真实呆板人举动开源数据集。

一个惊喜的发现是,大模型从大型数据集进修的思路也适用于呆板人领域。使用相对简单的呆板进修方法,利用与当前 LLM(如 ChatGPT)相同的模型,研讨者可能根据 Open X-Embodiment 数据集训练普遍的呆板人控制算法。就像一个人可以通过大脑进修开车或骑自行车一样,在 Open X-Embodiment 数据集上训练的模型可以简单地通过呆板人自带的摄像头识别模型所控制的呆板人类型。例如摄像头识别出的是 UR10 工业臂,模型将发送适合 UR10 的号令。如果识别出的是低成本的 WidowX hobbyiest 机械臂,模型也会相应地调整指令。

google鉴于 Open X-Embodiment 数据集训练出来了 RT-X 模型。为了尝试「呆板人大模型」的才智,参与 RT-X 项目的五个实验室分别对其进行了尝试。他们将 RT-X 的训练结果与各自独立开发的最佳控制系统进行了比较。每个实验室的尝试项目都涉及其呆板人原本的研讨使命,如拾取和移动物体、开门和通过夹子布线等。值得注意的是,统一的「大模型」超越了各个实验室的最佳方法,使呆板人完成使命的平均成功率提高了约 50%。

更惊人的发现是,如下列动图所示,RT-X 模型可以运用其他呆板人的经验来提高不同环境中正在被训练的呆板人的鲁棒性。

全世界呆板人共用一个大脑,googleDeepMind已经完成了第一步

在同一个实验室中,即使呆板人在履行相同的使命,环境稍微不同,它也有可能无法成功完成同一举动。怪不得马斯克要强调在换了衣服、盒子和桌子和之后,特斯拉 Optimus 在未来肯定能学会叠衣服呢。

全世界呆板人共用一个大脑,googleDeepMind已经完成了第一步

因此,可能借鉴其他呆板人在其他情况下的经验有助 RT-X 模型控制的呆板人应对变化和特殊情况。

搭建可以自主推理的呆板人

受到以上成果的鼓舞,google DeepMind 的研讨团队继续研讨了如何如何将这些数据整合到一个具有更加深入的推理才智的系统中。仅从呆板人数据中很难进修到复杂的语义推理。如「在罐子和橘子之间移动苹果」这个复杂使命,需要呆板人理解图像中物体之间的语义关系、基本常识还有其他与物理才智不直接相关的符号知识等等。

为了解决复杂语义推理的问题,研讨人员决定加入另一个庞大的数据源:全网的图像和文本数据。他们使用了一个现有的大型视觉谈话模型,该模型已经精通许多需要理解自然谈话和图像之间联系的使命。它是一个类似 ChatGPT 或 Bard 这样公开可用的模型。这个模型可以根据图片输入做出回答,可能解决视觉问答、字幕以及其他开放式视觉理解使命之类的问题。

研讨团队发现,经过训练,生成式 AI 模型也能输出呆板人举动以响应呆板人号令(如「把香蕉放在盘子上」),呆板人继而根据号令履行举动。鉴于这些发现,google DeepMind 研讨团队将这类方法应用到 Open X-Embodiment 数据集中。

全世界呆板人共用一个大脑,googleDeepMind已经完成了第一步

为了评价从互联网获取的智能和来自全世界的呆板人数据的结合情况,google DeepMind 用他们的移动机械臂对 RT-X 模型进行了尝试。研讨人员对它进行了最严格的通用化基准尝试。这要求呆板人掌握识别物体、成功操纵物体、根据复杂的文本号令、整合文本和图像信息、进行逻辑推理等才智。这类才智正是人类成为通才的原因之一。

研讨人员进行了两组评价。他们使用了一个不涉及google的呆板人、不包括多呆板人数据的模型作为基准。事实上,由于 Open X-Embodiment 数据集中有超过 10 万次演示来自google DeepMind 的呆板人,数据集中其他呆板人数据是否起效,这个问题的答案仍然未知。因此,他们又尝试了鉴于 Open X-Embodiment 整体数据的评价。

对google呆板臂而言,「将苹果移到易拉罐和橘子之间」是最难的评价使命之一。这是一项涉及空间关系推理的使命。在「将一个物体放在写着解为 2+3 的纸上」这项使命中,它还需要解数学题。这些挑战旨在尝试 RT-X 模型赋予呆板臂的推理以及得出结论的才智。

在这类情况下,呆板臂推理才智(例如推理出 「之间 」和 「上面 」的含义)来自于视觉谈话模型训练中的全网数据,而将推理输出应用于呆板人行为的才智(即使呆板臂向正确方向移动的号令)来自 RT-X 对呆板人数据的训练。下面的视频展示了一个评价实例,研讨团队要求呆板人履行一项未包含在训练数据中的使命。

全世界呆板人共用一个大脑,googleDeepMind已经完成了第一步

即使没有经过专门训练,google的呆板臂也可能遵循指令「在罐子和橘子之间移动苹果」。这类才智是由 RT-X 实现的,这是迈向通用呆板人大脑的第一步。

虽然这些使命对人类来说可能不值一提,但对通用呆板人来说却是一大难题。如果没有具体的呆板人演示数据清楚地说明「之间」、「附近」和「上面」是什么意思,即使共享了呆板人的训练数据,鉴于此的系统也无法弄清楚这些号令的含义。

通过整合视觉谈话模型中的全网知识,RT-X 的完整系统为呆板人研讨解决了很多问题。研讨团队发现共享呆板人数据的加入使google呆板人的泛化才智提高了三倍。这表明,Open X-Embodiment 数据集不仅有助于呆板人获得各种物理技能,还有助于更好地让与物理举动与视觉谈话模型中的语义和符号知识联系起来。这些联系使得呆板人具备了一定的常识。有朝一日,呆板人可能鉴于这些方法理解「给我拿早餐」这类复杂和微妙的号令,并为你端上一份热乎乎的早饭。

RT-X 项目的下一步

RT-X 项目展示了呆板人社区凝心聚力之后取得的巨大进展。得益于跨地区、跨机构的努力,google DeepMind 汇集了多样化的呆板人数据集,进行了全面的多呆板人评价。此前,这对于任何单一机构都是不可能做到的事。RT-X 的发起者希望能有更多的研讨人员入这项合作,分享他们的数据。他们还将开发工具、模型和基础设施来支持具身智能研讨。

就像大型谈话模型已经掌握了广泛的鉴于谈话的使命一样,RT-X 项目目前的进展已经提供了一种大型具身呆板人模型改变呆板人领域的可能性。在未来,google DeepMind 将会使用相同的基础模型作为许多现实中的呆板人做使命的基础。也许有一天,只通过微调,甚至只向预训练的基础模型输入提示,呆板人就能获得新技能。你可以像使用 ChatGPT 一样,无需告诉呆板人如何使用裱花袋或要写什么字体,呆板人就能在一个蛋糕上做「生日快乐」的裱花。

随着越来越多的实验室参与 RT-X 项目,google DeepMind 希望进一步推进单个神经网络控制多台呆板人的可能。未来他们可能将添加生成的各种模拟数据,加入更多种类的呆板人(例如有不同数量的手臂或手指的呆板人),引入不同的传感器套件(如深度相机和触觉传感器),结合操纵和运动行为等。

也许在未来,通用化的呆板人大脑可以驱动任何呆板人,全球所有呆板人都可以从共享的数据中受益。

参考链接:

https://spectrum.ieee.org/global-robotic-brain

https://mp.weixin.qq.com/s/k3iXMZtdtzoP8ZuA5_Htww

给TA打赏
共{{data.count}}人
人已打赏
应用

物理与 AI 的交融,中国科学院大气物理钻研所物理耦合图神经搜集,晋升降水预告本领

2024-1-25 14:09:00

应用

Hinton、LeCun、Bengio三巨头,马维英、陈海波等华人当选,2023 ACM Fellow公布

2024-1-25 15:16:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索