具身智能最佳形态是什么？它是通往AGI必由之路？八位头部玩家、学者现身说法

ChatGPT-4 被认为是人工智能技能生长的重要节点，语言大模型之后的多模态大模型初步显现了天下模型的影子。大模型最终将通过硬件与物理天下产生交互。人工智能的应用完成从数字天下到物理天下的扩展，具身智能是十分关键的技能方向。那么，具身智能应该依循何种生长路径，当前的技能水平处在什么阶段，生长过程中遇到了哪些瓶颈和难题，在应用场景上如何切入，离现在规模应用还有多远，身处在技能变革浪潮中的我们又该何去何从？4 月 27 日，北京智源人工智能研究院院长王仲远在中关村论坛年会现在「人工智能先锋论坛」上，和七位具身智能范围

ChatGPT-4 被认为是人工智能技能生长的重要节点，语言大模型之后的多模态大模型初步显现了天下模型的影子。大模型最终将通过硬件与物理天下产生交互。人工智能的应用完成从数字天下到物理天下的扩展，具身智能是十分关键的技能方向。

那么，具身智能应该依循何种生长路径，当前的技能水平处在什么阶段，生长过程中遇到了哪些瓶颈和难题，在应用场景上如何切入，离现在规模应用还有多远，身处在技能变革浪潮中的我们又该何去何从？

4 月 27 日，北京智源人工智能研究院院长王仲远在中关村论坛年会现在「人工智能先锋论坛」上，和七位具身智能范围的企业创始人、技能负责人和专家展开了一场关于具身智能的深度对话。

这七位嘉宾分别是星动纪元创始人陈建宇，傅利叶智能创始人兼 CEO 顾捷，智元机器人联合创始人、上海人工智能研究院院长宋海涛，银河通用机器人创始人、智源具身智能研究中心负责人王鹤，宇树科技创始人兼 CEO 王兴兴，小米机器人团队负责人许多，ACM 会士李航。他们打造了目前中国具身智能范围最具有代表性的技能和产品。

具身智能最佳形态是什么？它是通往AGI必由之路？八位头部玩家、学者现身说法十个问题，十次思辨。关于具身智能的现在与现在，跃然眼前。

01 AGI 必须通过具身智能完成吗？

王仲远：过去一年大模型技能的生长让我相信 AGI 很大概会到来，有观点认为，当然也包括我，AGI 很大概在现在 5-20 年完成。那么，AGI 必须通过具身智能才能完成吗？

李航：我们定义 AGI 的通用才智，往往是功能角度。通用人工智能一定会完成是有前提的，也就是要有任务和相应的评测标准。在这样的条件下我们一定能开发出，无论是软件还是硬件，达到或者超过人的才智的人工智能。

但人类智能至少有三个重要的特点是 AGI 未必能涵盖的，也就是情感、创造力和自有意志。

具身智能，硬件、软件结合，现在的生长空间十分大。能够瞄准 AGI 方向，完成更多的不仅是数字空间，还有物理天下的任务，相信现在能够达到或超过人的才智。

具身智能有三个重要的特点。第一，机器人或者智能体有自主性；第二，能够根据环境的交互积累经验，每个机器人、智能体，基于不同数据构建不同的模型，产生不同的智能，在完成任务上更加智能。第三，进入物理天下一定是多模态的，人有五观有五感，现在具身智能机器人应该能够结合多模态技能不断演进、完成智能性任务。

陈建宇：我认为通过具身智能完成 AGI 十分大概。AGI 具身智能不光具备语言才智，还有图像处理才智，控制身体的才智。人类身体，本身对促进智能发育有重要的意义。基于身体与社会的各种交互完成对天下的探索和认知。

王鹤：具身智能与非具身智能十分互补，他们的全集才是 AGI。中国老话说「读万卷书、行万里路」。现在，互联网海量的图文信息，本质是读万卷书的过程。但读万卷书无法替代行万里路，人在实在天下劳作不大概通过读书、看图、看视频而替代。具身智能赋予与物理天下的交互才智，这个才智是通过看书、看图数字天下的典型数据模态和经验无法获得的。

宋海涛：我认为通往 AGI 的道路十分漫长，因为人类文明史记载五千年，这需要全社会进行大模型语料库的建设，进行千亿、万亿级训练。建立各行各业的大模型以后，逐步迈向具身智能，这是漫长的过程。

02 具身智能一定是人形机器人吗？

王仲远：具身智能一定通过人形机器人来完成吗？或者具身智能本质必须是双足吗？

顾捷：在硅谷已有共识，具身智能的最终形态就是人形，但是高矮胖瘦，用什么驱动很难统一，人的形态已开始做收敛，在朝这个方向努力。

王兴兴：对于具身智能或者 AGI，机器人的形态不是特别重要，但是人形机器人是社会公认对比理想的形态。如果做数据收集，它可以去人生活的各种地方，跟人做一样的动作，比如开车、散步、跟人交互，收集更多数据，这样跟机器人对话、交互，更加接近实在人类交流的水平。当下做具身智能人形机器人是相对最适合的路径，但不是唯一路径。最适合的路径大概是效率对比高的方法。

许多：机器人最终可用，要做到四个可达。第一，移动可达，想让它去哪里就去哪里，包括避障；第二，操作可达，能抓什么就可以抓什么，或者把一个物品放在指定位置。第三，语义可达，比如拿苹果是为了榨汁。第四，价值和智慧可达。当我们把四个目标摆到一起，就会发现人形机器人是我们可以想象到的不多的选择。我个人坚信 AGI 可以完成，其本质是能量的转移、储存、发散，而人类生命也一套是能量系统，能量系统是可以完成的，只是多久的问题。

03 先生长硬件还是软件？

王仲远：具身智能是系统的工程，既涉及硬件也涉及软件，目前硬件和软件生长速度上显然有一些不匹配。大模型能思考，但是指挥不动本质，指挥不动硬件。这是先有鸡还是先有蛋的问题，我们到底是先让硬件达到一定水平才能迎来具身智能的蓬勃生长，还是脱离本质独立分开生长具身智能？

顾捷：这好比先有 APP 还是先有智能手机。先让智能手机打电话，有开放平台、开放接口，收集数据，再做 AI。对具身智能来说，本身身体还不够结实，能完成的任务很少，在这个基础上做具身智能开发相对难度对比大。当然本质和大脑是互相制约的，本质开发很好，大脑没有达到水准，应用场景也会受到制约。先从本质迭代切入点，再加入基本应用，达到一定程度后，本质做对比大的收敛，然后应用才会开始蓬勃生长。

王兴兴：我认为有实体的具身智能是完成 AGI 的唯一途径，目前脱离实体的大语言模型对物理天下的理解是不够的，这也是为什么很多顶尖 AI 学者提出要做天下模型。特斯拉无人驾驭也是收集实在数据训练，而不是使用虚拟数据，因为虚拟数据中实时与物理天下交互的数据太少。我觉得本质反而是完成 AGI 十分重要的渠道，AGI 很大概诞生在机器人公司。

04 数据先行还是才智先行？

王仲远：现在大模型技能路线还是依靠海量的数据，像 ChatGPT3.5、ChatGPT4，基本把人类所有数据读了一遍，数据在具身智能里毋庸置疑十分关键的，是数据先行，还是先有本质，有才智完成具体工作？

李航：需要迭代，先有硬件，然后有数据，建模型形成闭环，促进智能体机器人的生长。从行业来说，某一个阶段应该软件硬件一起往前推进优化，PC、手机生长的历史也是这样。从研究层面，团队有不同的侧重，大概聚焦软件方面，也大概聚焦硬件方面，也大概两方面都做，是现在若干年能够看到的一个趋势。

05 实在数据 or 仿真数据

王仲远：具身智能和无人驾驭不同之处在于无人驾驭整体上是特定的场景，但是具身智能尤其具身机器人要解决的场景数特别多，比如有家庭的场景、流水线的场景，场景的数量多到一定程度之后，数据收集是否容易成为现实，现在研究上有很多基于仿真数据进行模型训练、机器人训练。怎么看实在数据和仿真数据两条技能路线？

王鹤：当今数据是智能的重要推动力，具身智能最大的瓶颈就是缺乏数据。主动驾驭以特斯拉 FSD 为代表的技能，充分利用特斯拉百万车主上亿小时的驾驭数据进行模仿学习。人形机器人是否存在这样的数据呢？十分可惜不存在。因为不大概有上百万群众自发愿意买一个没有什么功能的机器人到家里，用摇控器指挥机器人干事情。所以，在这个阶段具身智能数据需要零到一的突破，这个零到一的突破靠我们遥控显然有点远水解不了近渴。

现在最实际的方式通过物理仿真，把现实天下物理规律通过图形学的引擎，实在仿真摩擦力、接触力、还有光线追踪渲染等，制造一个模拟实在天下训练的数字训练天下，这也是英伟达系列工作背后的初衷。

我的看法是，具身智能从零到一，很有大概完全靠仿真数据驱动。今天很多人形机器人的强化学习，也是主要在仿真天下进行的，但是现在当这样机器人充分在我们天下中存在，有车这样的存量的时候，形成了在实在天下交互的数据闭环，最终将成为具身智能的源头活水，真正释放出更多才智。

陈建宇：仿真的优势是十分快，靠英伟达的 GPU，如果做得好，一天的时间收集的数据大概相当于实在天下的上百万年的数据。但仿真难以十分准确地搭建很复杂的场景。在实在的天下收集数据，可以对比方便搭出复杂的场景，但是受限于收集数据的速率，无法倍速。在前期智能性还不足以解决十分复杂场景的时候，可以先通过仿真做简单的场景，快速地获取数据，让机器人具备一些才智。当机器人的才智逐步增进能够做复杂场景时，就需要更多地往实在天下收集数据。

06 短期高估与长期低估

王仲远：过去这一段时间，具身智能这个话题确实特别热，产业界也逐步进入到具身智能更大的范围。我们有时候会高估一年达到技能的突破，但是又低估 10 年技能达到的高度。怎么看具身智能在短期和长期的一些大概性？

宋海涛：我们一直推崇前端研发过程中的三个实在：一是基于实在的场景；二是基于实在的重大工程问题；三是基于实在的数据。

在具身智能这个方向，我们认为现在 3-5 年是一个逐步的渗透期。但是大规模的商业上量取决于几个核心因素：一是数据，无论是家居、生产、装备制造，还是智元探索的汽车工厂、3C、生物试验室，这些高质量的数据集和语料库是大量缺失的，当然我们大量一线的科研人员已经带着传感器在很多的整车厂积累实在场景和数据，但是需要一定的周期和时间；二是数字基座，在整个构建过程当中，需要一个新兴的数字基础底座，尤其是算力 + 基础的训练框架。现在 5-8 年之后会有一个快速的上量的过程。

许多：有一个观点我十分赞同，就是今天真正存在的问题是硬件的问题。今天机器人在移动空间的可达精度大概是 10 厘米，小车好一点，可达精度大概在 5 厘米。10 厘米的精度会导致移动抓取物体的时候，相对位置关系定位不准。5 厘米和 10 厘米，对上肢的要求完全不一样。上肢的精度现在大概在厘米级，而工业臂处在 0.01 毫米级别，两者差距还是十分大。

硬件在移动空间可达怎么做到 1 厘米？手眼协调的空间可达怎么做到 0.1 毫米级别？这个精度完成以后，上层的大模型或者具身智能就能在移动机械臂上大规模收集数据了。现在数据闭环收集的效率太低。短期需要看硬件的突破，远期看是整个数据闭环工程效率的提升。

相信随着大家批量性、集中性在硬件上的投入和改进，短期的生长或许会超过预期。我们在主动驾驭范围也看到了，数据闭环工程的生长周期比我们想得要长。主动驾驭投入这么多年，今年才在 SFD 上看到一些突破性的进展。我认为硬件的进步会超出想象，但是数据闭环、工程的进步速度或许会比想得要慢。

07 主动驾驭与具身智能

王仲远：我在过去一段时间的调研发现，不少做具身智能的专家学者是从主动驾驭这个范围转过来的，从现有的功能模块来看，确实两者有十分相似的地方，都包含环境的感知、规划决策以及最终的控制几个模块。但是我们也看到，特斯拉通过电动车收集的海量驾驭数据之后，开始训练了端到端的主动驾驭大模型，使得它很有大概完成真正意义上的 L4，甚至更高层级的无人驾驭水平。对这个问题怎么看？

陈建宇：我从 2015 年开始做主动驾驭，当时最主要的是两个问题。第一，直接开始做 L4，认为 2-3 年能解决，但实际远比想象的要困难。第二，当时的 AI 还没生长到一个阶段，大模型都没出现，关于决策、执行和控制也都是用相对传统的方法。这导致主动驾驭的生长经历了一段时间的曲折。现在主动驾驭范围，特斯拉应该是最好的一个标杆。特斯拉成功避开了这两个问题，采取的是 L2、L3、L4 渐进式生长。

具身智能也一样，不要一上来就做家用机器人走进千家万户，而是考虑先从工厂这种容易的场景任务开始。另外，要坚定地拥抱 AI，拥抱具身智能的方法。

08 互联网大厂 VS 创业公司

王仲远：在整个具身智能的生长过程中，是大厂会更具有优势？还是创业企业更具有优势？

许多：大家的起点都是一样的，没有谁有所谓的优势，取决于目标选择。比如，小米做硬件对比多，所以我们的目标选择本质上是偏底层，解决移动空间可达和操作空间的可达。我们的目标是移动空间可达 1 厘米，操作的空间可达 0.1 毫米级别。我们在上层的目标会稍微放慢一点。加上上层目标之后，会瞄准复杂长序列任务的处置闭环，包括数据流格式、训练和模型管理方法，会把这一整套都建立起来，这是我们的路径。大家站的起点一样，就看目标和方式选择，能坚持多久，这最终决定了能走多远。

王兴兴：大家的起点差不多，AI 的天下还是十分平等的。具身智能这个范围还没有突破临界点，虽然每天、每个月都有明显的进步。在这种前沿的范围，大家都在做，大概有一个天才带领小团队做出来，也大概美国的互联网大公司做出来，都有大概。

李航：我同意大家的观点，大公司和创业公司各有自己的特点，优势和劣势也都有，那些都相对不重要，更重要的是团队和整体技能。

09 具身智能现在预测

王仲远：具身智能最有大概落地的场景以及大概的时间点是什么？

陈建宇：会先在一些偏工业类的场景落地，因为可以排除人这个最大的不确定性因素。如何应对与人交流过程中的不确定性以及在这种情况下保证安全，对于现在来说十分困难。工业类的场景，可以在一个相对受限的结构和可预测的场景发挥才智，3-5 年可以有对比规模化的状态。如果是跟人对比密集的接触，不管是各种服务还有家庭机器人，大概需要更长的时间。

顾捷：人形机器人要完成真正意义上的通用型任务。举个例子，开门。门大概就有一万种，推的、拉的、玻璃的、卷帘的，各种各样的门。如果能够产生泛化性，人形机器人或者具身形态的机器人会出现一个突破点的飙升，从一个细分的市场成为一个通用的大场景。

很难预测是什么时候，在这个之前大概还是一些对比细分的窄的市场。比如，康复医院做治疗师，辅助人类做康复训练，在养老院做陪护，或者在一些危险的地方巡逻，这些对比细分的范围。

宋海涛：我们最近在工业制造、3C 特种范围都开始了一些实在的数据和场景的实测。真正的商用有三个特点：一是，大规模商用要具备一个容错度较高的环境；二是，公众的感知度对比强；三是，最终的场景买单才智对比强，这些才能提供下一步的重点爆发。

王鹤：这个问题可以从机器人有哪些才智，产品到底卖多少钱，客户付费意愿三个角度思考。从才智的角度来讲，基于合成大数据，我判断在今年或者明年将会出现能做拿、取、放的通用大模型。这样的才智其实在很多行业里都有，那么，我们的机器人要卖多少钱市场才能接受？现在判断，短期内用轮式底盘，不需要双腿，一个最廉价的机器人形态，成本要低于一个劳动力一年的工资。我们目前与某些车厂和商超环境在推进合作，预计 1-2 年能够起量。

王兴兴：目前公认的工业范围落地更加方便，主要是场景相对固定，付费才智较高。一台设备哪怕几十万，只要真正能干活，市场也能接受。另外，我们现在做的是通用 AI 或者通用具身智能，如果能在很多工厂做一些生产装配，那么，基本可以复制到家庭。因为我一直觉得，生产装配跟洗衣做饭或者烧菜没有本质差别，泛用性还是十分强的。

许多：我建议从两个角度考虑，一是精度，二是语义的富集程度。先是低语义富集程度、低精度的场景落地，比如To G 的纯粹引导机器人，慢慢到中高精度、语义富集程度的工业场景，最后向更高的服务场景迈进。

服务场景最大的难点是语义太富集了，比如，机器人帮我换一个灯泡，灯泡在哪里，找灯泡大概就需要找 1-2 个小时，根本就无法完成服务闭环。

李航：现在还是先在 To B 工业这种场景落地，终极目标是 To C 希望能进家庭。To B 工业场景中简单、重复性的工作对比多，适合在技能演进过程中先落地，产生商业价值，然后推动整个行业生长。To C 家庭场景中很多的具体任务，重复性不高，且多样性十分大，带来的价值相对来说反而不高，结果价格还十分高，商业化对比困难。所以一步步来，从工业界开始做起是一个好的整个行业生长的路径。

10 青年寄语

王仲远：具身智能是具有划时代意义的一个技能方向，但是一个行业的生长需要越来越多的人加入，才能把这个行业做大。因此，对所有有志于从事具身智能的青年学生、青年学者或者工程师有哪些寄语？

李航：有人说 20 世纪是计算机的时代，21 世纪很有大概就是人工智能的时代。其中，具身智能应该是这个时代里最具代表性的技能范围。整个 21 世纪，具身智能至少占其中一半，AGI 离不开身体。大家如果感兴趣从事这个行业各个方面的工作，十分好。

许多：我就是一句话，找准切入点，勇敢加入，和大家一块 Go，因为刚刚开始！

王兴兴：AI 是目前最激动人心的时代，回望过去人类的几千年或者几百年历史，当下真的是十分好的时间点，资源、关注度、财力、人员、技能，已经快突破临界点，真的十分激动人心。我十分鼓励所有的人学 AI，去编程，去尝试！

王鹤：非具身的大模型，比如 GPT-4、Sora 是千亿的市场，现在的具身大模型，唯一有的 Robotaix，是几千亿的主动驾驭市场，替代的是司机的行为，能替代人的具身大模型应当是多大的市场？万亿以上。欢迎大家加入。

宋海涛：全球 80 亿人口，核心的生产力创造还是来自于我们的智慧群体，仅仅是完成全球的生产力创造，我们至少需要 100 亿台人形机器人。马斯克讲的，征服浩瀚宇宙，一千亿台人形机器人在等着我们。这个市场空间足够大，我们能做的就是仰望星空，但是脚踏实地，现在已来，等待大家一起去协作创造！

顾捷：人形机器人、AGI 都需要有信仰，现在大量的人才有机会投身于这个行业，十分激动人心，呼吁更多的人参与。20 年前做机器人比赛的时候喜欢这件事情，但是现在是最好的时刻。

陈建宇：现在一定会迎来十分大的具身智能和机器人的时代，它会影响千行百业。在这个基础之上，大家有两个选择，一是直接投身做具身智能，二是所在的行业拥抱具身智能。

可以看到，具身智能是一个具有划时代意义的技能，大幕刚刚开启，让我们共同期待具身智能的无限现在，相约 6 月 14 日智源大会，继续关注具身智能的技能讨论与成果分享。

{{userData.name}}已认证

具身智能最佳形态是什么？它是通往AGI必由之路？八位头部玩家、学者现身说法

「非常接近GPT-4」的WizardLM-2被微软紧急撤回，有什么内幕？

机密GPT模型引爆社区，GPT-4.5、GPT-5谣言满天飞，奥特曼在线围观

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！