解密机器人大模型RFM-1：Covariant创始人陈曦专访

作者：王建明来源：微信公众号「石麻笔记」2024年3月，在通用机器人的发展史上，绝对是值得纪念的一个月。3月11日，知名AI机器人创业公司Covariant推出了首个机器人基础模型RFM-1（Robot Foundation Model-1），这是全国上首个鉴于真实任务数据训练的机器人大模型，也是最接近于解决真实全国任务的机器人大模型；次日，Covariant创始人Pieter Abbeel的徒弟和徒孙Sergey Levine和Chelsea Finn宣布创办Pi（Physical Intelligence），一

作者：王建明

来源：微信公众号「石麻笔记」

2024年3月，在通用机器人的发展史上，绝对是值得纪念的一个月。3月11日，知名AI机器人创业公司Covariant推出了首个机器人基础模型RFM-1（Robot Foundation Model-1），这是全国上首个鉴于真实任务数据训练的机器人大模型，也是最接近于解决真实全国任务的机器人大模型；次日，Covariant创始人Pieter Abbeel的徒弟和徒孙Sergey Levine和Chelsea Finn宣布创办Pi（Physical Intelligence），一家旨在为不同形态的机器人设备提供统一机器人大脑的AI机器人创业公司（对Pieter Abbeel，Sergey Levine和Chelsea Finn在当今AI机器人范畴有多么重要的存在，可以参考AI+Robotics华人图谱）；紧接着，北美知名人形机器人公司Figure发布Figure 01 demo，展示了鉴于GPT4V大模型在人类指令的引导下顺滑地完成各类任务的能力，炸翻国内科技媒体。

不得不让人感慨，机器人大模型的timing到了吗？这个范畴的进展，正在以天为单位刷新人们的认知。

在2023年6月，我曾经写过一篇关于Covariant的深度报道Covariant：三个华人小伙创办的AI4Robot独角兽，是当时中文互联网资料里关于这家公司最全面的一篇报道，我个人关于AI机器人范畴的关注也源于Covariant。在上周Covariant发布机器人大模型RFM-1之后，我非常荣幸邀请到Covariant的创始人陈曦（Peter Chen）举行专访，解密全国上首个最接近于真实全国的机器人大模型RFM-1。

解密机器人大模型RFM-1：Covariant创始人陈曦专访

1. Covariant RFM-1概览

Covariant 成立于2017年，总部位于美国加州硅谷，致力于构建一种通用人工智能，帮助机器人观察、进修和与周围的全国举行互动。创始团队来自于 Open AI, 加州伯克利大学人工智能实验室 (BAIR)，四个创始人成员分别是UCB的AI机器人大佬Pieter Abbeel和他的三位博士生陈曦（Peter Chen），张天浩（Tianhao Zhang）和段岩（Rocky Duan）。关于Covariant更详细的历史可以参考Covariant：三个华人小伙创办的AI4Robot独角兽。

解密机器人大模型RFM-1：Covariant创始人陈曦专访

Covariant于2024年3月13日宣布推出RFM-1，是一个鉴于一般互联网数据以及富含物理真实全国交互数据训练的机器人基础模型，Tech Crunch将RFM-1称为“ChatGPT for robots”。RFM-1不仅构建了机器人懂得人类物理环境的全国模型，同时拥有鉴于人类说话、图片等多模态与物理全国互动的能力，它的推出标志着人类首次将大量真实机器人任务数据融入AI大模型，将AI向物理全国的探索推进了一步。

解密机器人大模型RFM-1：Covariant创始人陈曦专访 RFM-1 介绍视频（来源：Covariant官网）

视频链接：https://mp.weixin.qq.com/s/IFxGDZ0e2ra0rqDyOgyBMg

RFM-1是一个鉴于Transformer的大模型，它拥有80亿参数，鉴于文本、图片、视频、机器人举动、传感器信息等多模态数据举行训练的any to any序列模型。通过将所有模态tokenize为一个共同空间（common space），并用自回归预测下一个token，RFM-1利用其广泛的输入和输入模态来实现多样化的应用。例如，它可以执行图象到图象的进修，用于场景分析任务，如分割和识别。它可以将文本指令与图象观察结合起来，生成所需的抓取举动或运动序列。它可以将场景图象与目标抓取图象配对，以预测视频的结果或模拟沿途可能发生的数值传感器读数。关于any to any特性，我们在下文的专访中会特别解释。

解密机器人大模型RFM-1：Covariant创始人陈曦专访 Any to any介绍（来源：Covariant官网）

视频链接：https://mp.weixin.qq.com/s/IFxGDZ0e2ra0rqDyOgyBMg

2. 陈曦（Peter Chen）个人简介

陈曦（Peter Chen）是Covariant.ai的首席执行官兼联合创始人。Covariant是一家领先的AI机器人初创公司，已经融资超过2亿美元。Covariant正在构建用于机器人学的基础模型，使机器人可以对物理环境举行识别、推理和操作。在创办Covariant之前，陈曦（Peter Chen）曾是OpenAI的研究科学家，也是加州大学伯克利分校人工智能研究实验室（BAIR Lab）的研究员，他专注于强化进修、元进修和无监督进修。他在领先的学术期刊上发表了30多篇论文，引用超过2万次。

2. 解密RFM-1

RFM-1的由来

机器人基础模型是我们创立Covariant时的一个核心想法。我们四位创始人中有三位来自OpenAI，包括我自己、CTO Rocky Duan和首席科学家Pieter Abbeel。我们创立Covariant的一个主要原因是意识到要在机器人范畴实现通用型智能，必须在现实全国中搜集数据。因此，Covariant从一开始就努力将真实的机器人部署到客户现场，并在实际环境中大规模搜集数据。因此，从数据搜集的角度来看，RFM-1的概念可以追溯到公司成立之初的思路。

谈到具体的模型框架transformer，以及any to any的multi-model model，这是我们过去一年多来的尝试。随着LLM和多模态大模型的发展，我们最初的愿景变得更加可能。因此，RFM-1是我们六年来一直梦寐以求的东西，只是最近一年我们确定了使用何种模型框架和方法来具体实现这一想法。

RFM-1是机器人的"ChatGPT时刻"吗

这个问题的答案取决于对"ChatGPT时刻"的定义。如果我们指的是在接下来机器人范畴是否会有迅速的发展，那答案肯定是肯定的。另外，如果我们考虑到机器人的进步是否会借鉴和采用像ChatGPT这样的技术和方法，我认为答案也是肯定的。

但是，如果问现阶段机器人智能是否已经像ChatGPT那样通用，我认为还没有达到这个水平。不过，这种情况很快就会改变。

如何看待机器人大模型竞争

对于机器人大模型范畴的竞争，我认为Pi（Physical Intelligence，文章开头提过）的成立是一件令人激动的事情。机器人市场的潜力是非常巨大的，机器人大模型可以在数十亿级别的规模上应用，即有数十亿台机器人由机器人基础模型驱动。在这样庞大的市场中，有更多具备能力的公司在这个范畴取得成功对所有人都是件好事。

然而，就目前而言，Covariant拥有明显的领先优势。多场景和多硬件的适配能力对任何机器人大模型来说都是必不可少的。在Covariant的实践中，我们已经积累了丰富的多硬件适配经验。举例来说，Chelsea Finn等人在离开Google之前创建了一个名为OpenX的数据集（对应RTX项目的数据集），他们联合了全球20多个不同的机器人实验室，搜集了大约一百万条数据，这些数据来自于22种不同的机器人硬件。而在实际的生产环境中，Covariant已经部署了超过30种不同类型的机器人，这意味着我们一家的机器人种类已经超过了OpenX整个数据集中包含的机器人种类。

因此，对于RFM-1模型而言，它的训练数据不仅局限于一种硬件和一种场景。要想打造出真正优秀的机器人基础模型，它必须在不同的硬件、不同的任务和场景中适配，因此训练数据集也必须包含不同的硬件和场景。

如何懂得RFM-1模型结构

简单来说，你可以将RFM-1视为一个大型说话模型，但它不仅仅预测说话的token。在RFM-1中，token不仅来自文本，还包括机器人的举动、传感器数据、图片、视频等多种模态。针对这些不同的模态，有相应的tokenizer将它们全部转换成token。最终，RFM-1实际上就是一个大型说话模型，但它的输入和输入预测不仅限于人类说话这一模态。这是对RFM-1在输入和输入预测方面的最简单懂得。

如何懂得any to any

RFM-1之所以如此强大的原因之一就在于any to any。传统的AI机器人通常是以图象作为输入，输入举动，或者以三维数据作为输入，输入举动，但这些模型存在着很大的局限性。RFM-1的一个重大突破是，它可以作为一个全国模型，预测未来会发生什么。对于这个模型来说，它最终都在举行下一个token的预测，而预测下一个举动、图象或视频只是不同的token而已。只要给出适当的提示，告诉它想要做什么，它就可以举行相关的预测。这也是RFM-1如此强大的原因之一，我们可以让它进修全国模型，从而懂得物理全国，并鉴于这个懂得做出更好的机器人举动。它对于物理全国的懂得还可以用作模拟器，在模拟器中可以避免一些不良举动，举行规划，类似于Alpha-Go的规划方式。

你可以将RFM-1视为一个非常通用的模型，与传统的AI机器人模型不同，它不是单一用途的，因此我们引入了any to any的概念，因为有太多的可能性。如果是文本到文本，那就是传统的说话模型。如果是图象到机器人举动，那就比较容易懂得，这是一种机器人策略。如果是文本到图象到策略，那就是人类通过说话与机器人沟通，机器人根据说话任务拆解和相关任务图象执行举动。甚至可以鉴于当前图象，告诉它目标图象，然后输入举动。any to any的核心意思是它可以适应各种输入模态和输入模态。

但确实，any to any是一个比较抽象的概念，因此我们在博客中提供了一些具体的例子来解释，而当我们将RFM-1实际应用到客户中时，我们将继续发布一些功能，让大家对any to any有更直观的懂得！

RFM-1调用其他第三方说话模型吗

没有调用任何第三方的API，RFM-1它本身就是一个可以懂得文本的多模态大模型，它也可以给出说话的反馈。甚至可以把它仅仅当成一个大说话模型来用，当然肯定没有ChatGPT那么好用，因为很多参数要分散在懂得机器人的事情上面。

为何要输入多模态

作为机器人大模型，RFM-1不仅仅满足于输入举动，而是输入“any”多个模态，这是为了增强其通用性。

如果我们仅仅将RFM-1视为一个策略（policy），那它实际上是将不同的输入映射到举动上，例如给予自然说话指令、目标，甚至是一个展示某项任务的视频，让机器人进修并执行。作为通用模型，它应该可以懂得视频中发生的事情，并且可以复现这些情景。没错，它的输入本质上都是举动，从这个角度来看，它并没有什么特别之处。

但如果我希望这个模型可以更好地懂得视频，甚至进修到全国模型，一个非常好的方法就是给它视频的前半段，然后让它预测视频的后半段会发生什么。这就是所谓的“视频输入和视频输入”。只要举行大量的这种训练，这个模型将会具有对视频和物理全国更深入的懂得，这个懂得也可以在执行举动时加以利用。另外一个用途是将这种全国模型作为模拟器来使用。

RFM-1使用了哪些数据

RFM-1使用了互联网数据和Covariant部署在全全国客户场景中的真实机器人数据。互联网的数据可以为模型提供文本或图片的常识性懂得，但对于一个全国模型来说，互联网上的数据通常是不够的。因为互联网上的数据往往缺乏举动信息。例如，假设你观看一些公开的视频，通常视频中并没有包含举动信息，无论是人类行为还是机器人操作，你只是被动地观察，而不知道其中的具体举动。在这方面，真实的机器人数据起到了至关重要的作用，因为它包含了大量的机器人举动和结果的信息。在互联网上，你无法获取到这种关于举动的具体信息，因为互联网上的数据只提供了时间上的前后状态，而无法捕获其中的举动细节。

举例来说，尽管你可以通过观察一个人拿起物体来猜测他正在举行这个举动，但你无法知道他用了多大的力量、手指放在了什么位置、以及具体是如何抓取物体的。这些细节数据在互联网上是无法获取的。

因此，尽管互联网数据可以用于训练视频、图片或文本生成模型，但要进修一个完整的全国模型却非常困难，因为缺乏举动信息。Covariant部署的机器人硬件提供了大量的传感器和关节数据，可用于模型训练。此外，我们还可以根据需要改变数据搜集方式，因为我们可以控制硬件。例如，如果发现某种数据模态更有用，我们可以更新已有的机器人以搜集相应的数据。

RFM-1和Figure01的路径

背景信息：Figure 01路径涉及接入像GPT4v这样的视觉说话模型，然后在此基础上添加机器人举动模型；而RFM-1是一个更加端到端的模型，直接将多模态输入映射到输入举动。

我认为最终的关键在于，无论采用何种技术路线，只要可以实现落地并产生效益，就是一条好路线。无论朝任何方向前进，都有可能取得成功。最终，机器人的成功与否取决于它是否可以在生产环境中为客户带来效益，并且该技术是否可扩展，能否在多个场景下成功推广。

对鉴于多模态大模型（比如GPT4v或Gemini）接举动模型的路线，你会发现它们在举行demo时毫无问题，但是，要使机器人从实验室的demo变为可以在生产环境中使用的，其最大的差别在于稳定性和性能。就目前而言，市场上最优秀的多模态大模型GPT4v，其推理成本非常高，而且在可靠性方面存在问题。举个例子，在相对密集的场景中，比如将十个苹果放在一个篮子里或将3、4件衣服揉在一起，然后询问GPT4v统计图片中的物品数量，测试结果显示其成功率并不高。如果依赖GPT4v的上层决策出现错误，那么后续的底层控制将无法实现所需的稳定性。

如何加速数据搜集

首先，我们自身正在快速扩展规模，不仅仅是通过获取新客户，而且是通过我们已有客户的订单量增长。如果我们可以处理所有这些订单，我们的数据搜集速度将提高一个数量级以上。

另一方面，随着RFM -1的成熟，我们计划将其开放给其他机器人公司，类似于OpenAI的GPT API模式。通过向更多人开放这一模型，我们将可以加速数据搜集的速度。

关于RFM-1 API

Covariant将在不久的将来推出面向公众的RFM-1机器人大模型 API，传统机器人或新创公司都适用。在LLM范畴，当我想要举行自然说话处理时，我不会自己训练一个独立的模型，而是会使用OpenAI的API。我可能对它举行prompting、fine-tuning，或者举行retrieval和generation，然后鉴于这些构建我的新自然说话处理应用程序。

对Covariant来说，我们希望为未来数以百万计、数以千万计、数以亿计甚至数十亿的机器人提供大脑，它不仅仅是单一机器人应用，也不仅仅是硬件。未来将会有大量的机器人开发者和机器人公司，接我们的API，我们希望成为他们的GPT平台。他们可以依赖我们来解决大部分困难且数据密集的智能问题，但这并不意味着他们不需要做其他工作。他们仍然需要举行硬件开发、人机交互设计，并准确把握场景，我们希望可以为他们提供支持。

作为全国模型的RFM-1

RFM-1是真正意义上的全国模型。Sora具备成为全国模型的潜力，但它目前还不是，因为它没有举动数据。如果Sora模型只是在游戏引擎中训练，而没有真实全国的视频数据，那么它学到的物理模型将会存在偏差，因为游戏引擎生成的视频中的物理规律通常与现实全国不一致。

如果Sora只是在YouTube上训练，而且只用了真实视频作为全部训练集，那它应该可以懂得一部分物理全国的运行规律。但Sora缺少的是什么？Sora缺少的是中间的关键概念，即它没有对举动举行懂得，它只是拥有一些视频，然后我用GPT为它生成了一个长长的说明，但实际上我无法指出视频中的具体行为者。

比如我们看到他用拳头砸向墙壁，但我们无法确定施加了多大的力。无论是他的拳头受伤了，还是墙壁被砸坏了，他只能描述事件的发生过程。他只能说拳头碰到了墙壁，然后墙壁坏了，但实际上他并不了解内在的举动过程。因此，Sora虽然具备成为全国模型的能力，但它缺乏对举动的懂得，这使得它很难进修到举动结果的因果关系，尽管它应该可以学到很多相关信息，但这些信息可能不够准确。

具身创业，何去何从

大模型在所有范畴都一样的，就它最终应该只会有几家跑赢出来。因此，如果你觉得自己无法成为那几家大模型赢家之一，不论是在机器人范畴还是其他范畴，那就应该考虑去做应用层或工具链相关的事情，这方面是现在是投身到机器人非常好的时间。

随着机器进修大模型的迅速成熟，这个范畴的发展速度也会加快。无论其他人的进展如何，在我们这里可以看到机器人大模型的进展非常非常快。另外，硬件技术的成熟速度都会非常快，例如，像Figure这样的公司获得的投资以及国内对人形机器人、移动机器人和机械臂的投资都在增加，这也将促进硬件技术的发展。随着越来越多的产品推出和公关活动的开展，公众对机器人的接受度也将迅速提高。因此，现在是一个非常好的时代来从事机器人应用的开发，以及是在构建基础设施方面。将注意力放在这些范畴都是非常明智的选择。

具身投资，何去何从

现在这个时间点，可能最值得关注的还是机器人大模型和工具链基础设施，但我觉得这种情况可能会在一年内迅速改变，一年之后可能会是机器人范畴有很多机会的时间。

但从另外一个角度，如果现在可以投资一家应用型公司，并且相信他们可以度过最初一到两年的进修阶段，那可能是值得考虑的。因为我们可以看到，像Language space这样的应用层面公司，比如Character.ai和Perplexity，他们在做应用层的时候都是在ChatGPT推出之前。那个时候，底层的基础模型尚未完全成熟，他们快速迭代所，并获得了怎么鉴于不断演进的基础模型做应用的经验，使得他们可以很快跑出来。所以，如果我们可以放宽视野，从今年开始举行试错和进修，我认为并不会太早。但如果团队不能迅速取得商业上的成就，那可能会面临融资困难。不过，如果团队和市场都足够好，我认为从今年开始举行应用层面的尝试也是可行的。

4. 愿景如愿

在完成这次专访之后，我重新看了一遍之前的文章Covariant：三个华人小伙创办的AI4Robot独角兽，惊讶地发现Covariant创始团队在2018年创立公司伊始的初心和如今2024年RFM-1的推出是如此的一致。我再次将Pieter Abbeel说的这段话引用出来，作为本文结尾：

“推动人工智能快速进展有两个重要因素：一方面是提供给人工智能进修的经验，另一方面是人工智能架构方面的研究突破。

经验的关键：机器人必须在真实全国中举行进修，它们必须与人类相互作用的无限范围的物体举行互动，并执行人类执行的无限数量的任务。

架构的关键：真实全国的数据比实验室的数据要多样性更高，我们需要建立根本性的新架构，以从这样的数据中举行进修。因此，在2018年初，我们开始了一段旅程，让机器人接触真实全国，并研究可以吸纳这些经验的新型人工智能架构（远比典型实验室经验更丰富）。”

References：

https://covariant.ai/insights/introducing-rfm-1-giving-robots-human-like-reasoning-capabilities/https://covariant.ai/insights/rfm-1-a-world-model-that-understands-physics/https://techcrunch.com/2024/03/11/covariant-is-building-chatgpt-for-robots/

{{userData.name}}已认证

解密机器人大模型RFM-1：Covariant创始人陈曦专访

人人都能做音乐！Suno v3 一键生成高质量中文歌曲！

明略走过冬天

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

{{userData.name}}已认证

人人都能做音乐！Suno v3 一键生成高质量中文歌曲！

明略 走过冬天

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

明略走过冬天