机器之能报道
编辑:吴昕
严格地说,是“拾取与搁置义务”版本的ChatGPT来了。除了自然语言交流,还能像Sora一样生成视频。
有了机器人根基模型RFM-1,使用简单英语就能指导机器人实现挑撰工作。
机器人 AI 公司 Covariant CEO Peter Chen 坐在一个谈天机器人面前,界面和 ChatGPT 的很像。
“给我看看你面前的运送箱,” 他输出一段文本。然后出现了一段视频,一个机械臂悬在一个装有各种物品的运输箱上——里面有一双袜子、一管薯条和一个苹果。
谈天机器人可以和你讨论它看到的物品,也可以操纵它们。接着,Chen 要求它去抓一个水果,只见机械臂伸向苹果,轻轻抓住苹果后将它移到附近的另一个箱子里。
这个谈天机器人是该公司迈向“机器人 ChatGPT ”的重要一步。人们希望 AI 最终能够解决长期以来的编程难,并让它们做更多的事情。“在这一点上,说根基模型是机器人技术的未来是没有争议的。” Chen 说。今天,Covariant 正式宣布推出机器人领域的通用根基模型 RFM-1。因为整合了语言数据,Chen 用简单英语就能指导机器人实现挑撰工作。
更为重要的,“根基模型”意味着 RFM-1 可以接受更多数据的训练来实现更多的事情——目前都是关于堆栈操作的义务,因为这就是它所接受的训练,但它的功能可以通过向其提供更多数据加以扩展。
官方对RFM-1的介绍
视频链接:https://mp.weixin.qq.com/s/4-mf_IPFxigDOvBmJsQ4yg
“对于实现各种拾取和搁置义务来说,现有的系统已经足够快速和灵活。” Covariant 联合创始人、机器人学习先驱 Pieter Abbeel 说,像 RFM-1 这样的模型可以让机器人更流畅转向新义务,走得更远。所谓远,既包括实现任何义务,也包括接入任何具身(不排除人形机器人),为全球数十亿机器人提供动力。
野心不小的 Covariant 成立于 2017 年,由加州大学伯克利分校电气工程和计算机科学教授 Pieter Abbeel 和他的三位华人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang 创立。Abbeel 在 2016 年成为 OpenAI 早期员工,就在 Chen 加入该公司一个月后。Rocky Duan 也曾担任 OpenAI 的研究科学家。后来他们离开 OpenAI,希望将 AI 从比特世界落地到真实世界,打造像人类一样通过推理来适应理想场景的机器人产品。
两位联合创始人,总裁兼首席科学家Pieter Abbeel(左)和 CEO Peter Chen(右)
四位创始人,从右到左:Pieter Abbeel (总裁兼首席科学家)、 Peter Chen(CEO)、Rocky Duan (CTO)以及 Tianhao Zhang
Covariant 核心技术是被称为“ Covariant Brain ”的机器人大脑(软件),主要部署在工业机械臂上。最初他们专注于挑撰用例是因为可以创造真实价值——客户愿意掏腰包支付软件费用。不过,对于 Covariant 来说,最令人兴奋的部分是过去四年积累的大量理想世界的数据。
遍布全球的机器人大军,日以继夜地采集着数据。
视频链接:https://mp.weixin.qq.com/s/4-mf_IPFxigDOvBmJsQ4yg
“实现我们正在做的事情的唯一方法是让机器人部署到世界各地真实客户现场,收集大量数据,”Abbeel 说。“这使我们能够训练一个具有独特能力的机器人根基模型。”
与 ChatGPT、谷歌 Gemini 和其他谈天机器人一样,机器人大军收集的来自真实世界的数千万条高质量多模态机器人数据(包括静态数据、动态视频、关节角度、力读数、吸盘强度等机器人操作中涉及关键数据),训练出 80 亿参数规模的 RFM-1 ,可以帮助机器人更像人类一样思考。
在真实世界中接触到各种拾取和搁置物体对象,比如易变形、被高度遮挡、材质各异、不规则外形等,建立对真实物理世界的理解。
在不断变化的堆栈环境中 24/7 全天候运行,系统也可以发理想验室的环境中难以遇到的长尾边缘案例。
我们可以将 RFM-1 视为一个视频生成器(就像 Sora )。输出拾取某些物体的命令,系统会使用其训练数据(形状、颜色、大小等)来识别面前与该描述最匹配的物体。然后生成视频,预测自己试图拿起这个物体时可能发生什么,并确定最佳行动方案。
下面是一个类似图生视频功能。输出初始图像(类似图片提示),RFM-1 即可生成相应的动态视频。本质上是一种模拟,以过去所有训练数据为根基。
上面两张图都是作为输出的初始图片,对应的下方动态内容是模型的输出,预测自己执行这一义务会是什么样子。
再比如,如果你想知道把一个圆柱体的物品放到传送带上会发生什么?也可以让 RFM-1 生成视频,它能准确显示圆柱体翻转和滚动的样子(比 Sora 还精准),因为在此之前它已经看过很多东西被搁置在不同传送带上后的状态。这些视频在堆栈业务中可能没有实际用途,但它生动显示出机器人对周围世界的理解。
无论是输出的是文本、语音、图片还是视频等,RFM-1 都会生成相应的文本、图片、视频甚至操作命令。
视频链接:https://mp.weixin.qq.com/s/4-mf_IPFxigDOvBmJsQ4yg
除了生成视频的能力,现在任何人都可以在几分钟内通过自然语言指导机器人执行特定操作。
操作员用简单的英语指示机器人拾取某些物体
视频链接:https://mp.weixin.qq.com/s/4-mf_IPFxigDOvBmJsQ4yg
在遇到问题时,RFM-1 甚至赋予机器人求助的本领。它们会将遭遇的困难直接告诉操作人员,并根据新建议尝试实现义务。
值得注意的是,虽然 RFM-1 最大亮点就是泛化能力,但泛化能力有限——“……它目前不能泛化到完全新的对象或情况。” Abbeel 表示。换句话说,如果你希望机器人拿起一颗螺丝并把它拧进去,或者剥一块生姜,这并不是一个真正有关拾取和搁置问题,RFM-1 暂时无能为力。目前, RFM-1 也主要销售给只做某些堆栈义务的公司。另外,就像 ChatGPT 也会有幻觉并出错,RFM-1 也有不理解要求并掉落东西的时候。错误的风险与成本取决于场景,制造等领域的容错率非常低。
不过,Abbeel 相信,只要有足够的数据,有用的世界模拟将是可能的。“从现在起的 5 年里,我们建造的将是唯一一种任何人都会使用的模拟器。”这是一个更强大的模拟器,一个从建造之初就带有碰撞检测等元素的模拟器。所有这些东西都很难以任何方式构建到你的物理引擎中,更不用说让事物看起来像真实世界中的渲染器——“在某种意义上,我们正在走捷径。”
为了扩展 RFM-1 的能力,以实现为“全球数十亿机器人”提供动力的根基模型的长期愿景,下一步是向它提供更多数据。“我们基本上已经构建了一个数据收集引擎,”Abbeel 说。“如果你愿意向我们提供不同类型的数据,我们也会收集这些数据。”
但是,这也会导致另一个局限性 —— 商业可行性。1X AI 副总裁 Eric Jang 提到过目前三种扩张机器人部署规模的路子。除了耳熟能详的传统编程方法,一种是以特斯拉、1X、Figure.ai 这些人形机器人为代表的全栈路线(既做本体硬件也研发通用系统软件),另一种就是 Covariant 这种纯软的方式——建立一个“全能的大脑”控制机器人,每台机器人的硬件供应商都会来找你,要求接入“全能大脑”的 API 。
如果你能建立一个别人无法建立的模型,就能获得丰厚的软件利润,每个人都给你他们的数据。GPT-4 可能是最好的例子。但是,这种方法的缺点是涉及大量数据,你的硬件合作伙伴可能不想给你数据,他们的客户也不想给你数据。
RFM-1 目前尚未部署在人形机器人上,虽然它可以学习控制训练数据中没有的类似硬件(甚至人形机器人?),但一家人形机器人公司又会基于什么样的动机愿意将数据共享给你呢?
对此,Chen 表示,“我们的宗旨是帮助他们走进理想世界。”“我认为,真的没有多少公司拥有 AI,可以让他们的机器人在生产环境中真正自主。如果他们想要强大、能够帮助他们进入理想世界的 AI,我们确实是他们的最佳选择。”
也就是说,虽然每个机器人公司都可以单独训练自己的模型,但对于任何试图实现与理想交互操作的模型来说,其性能可能远不如使用 RFM-1 。
参考链接
https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/
https://spectrum.ieee.org/covariant-foundation-model
https://www.wired.com/story/quest-ai-chatbots-a-hand-arm-robots/?utm_source=twitter&utm_brand=wired&utm_medium=social&mbid=social_twitter&utm_social-type=owned