具身智能,简单来说,就是赋予 AI 一个「身体」,让这颗聪明的大脑在物理世界中行动自如。
把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时,机器人可以不再机械地按训练行事,而是能够灵活变通,具体问题具体分析。
于是,在这两个火热的概念齐头并进之时,这样的展示层出不穷,机器人为你扫地、喂猫、铺床、做饭,以后养老不用愁,放心交给机器人就好了。
但是为什么我们身边还没见到一个这样的机器人呢?
带着这个问题,我们围观了今年的智源论坛 2024 具身与世界模型专题峰会。当前学界前沿最聚焦具身智能的哪些问题?如何让大模型飞升的 scaling law,在机器人领域也获得回响?我们距离真正的世界模型,还有多远?
从前沿技术成果,到最新实践应用,来自学术界和产业界的代表们的精彩分享贯穿全天。
大佬们具体都聊了什么?重点都已经划出来了!
欢迎查看直播回放:https://event.baai.ac.cn/activities/855
Scaling Law 的成功,机器人也想复刻
参数量越大,模型性能越高,这一原则在大模型领域已经得到了充分验证。如何在机器人领域,活用「Scaling Law」的公式,这是产业面临的共性问题。
作为人工智能的创新引领者,联合产学研协同突破行业痛点,也是智源研究院一直以来的核心愿景。
一开场,智源研究院院长王仲远详细介绍了智源大模型「全家桶」。其中,最引人瞩目的要数首个原生多模态大模型 Emu3。
它可以融会贯通文本、图像、视频三种模态,也首次证明了 Scaling Law 在多模态大模型的可行性。
如何让 scaling law 跨越不同任务、本体、场景,构建泛化超强能力的大模型?这是智源具身多模态大模型研究中心负责人仉尚航近来关心的问题。在此次分享中,她展示了一系列基础模型的新成果。
人类在思考问题时有快慢之分 —— 既有脱口而出的「快思维」,也有静心推理的「慢思维」。
受此启发,她带领研究团队提出了 RoboMamba、MR-MLLM 等一系列多模态大模型。详情可以参考AI在线的报道:《北大推出全新机器人多模态大模型!面向通用和机器人场景的高效推理和操作》。
在打破模态的突破之上,仉尚航的下一步是把模态的原生能力升维到 4D—— 构建更好的 4D 世界模型与数据集。
4D 世界模型 EVA
论文链接:https://arxiv.org/pdf/2410.15461
「具身智能最大的问题就是没有数据」,那么什么样的数据对机器人最有用呢?
爆火全网的 Aloha、特斯拉的 Optimus 系列都在推崇遥感操作收集的真人数据,Depth Anything 这样的单目视觉方法也在业界流行。
而北京大学助理教授、银河通用创始人,智源学者王鹤认为,合成数据或许是更优解。
这一结论来自他们的研究成果 D3RoMa。红外深度图显示,D3RoMa 渲染出的光斑与真实世界高度吻合,首次实现了亚厘米级的深度精度。
论文链接:https://arxiv.org/pdf/2409.14365
至于机器人数据的 next level,王鹤看好的是 4D 数据。
提到 scaling law 在机器人领域的里程碑,绕不开「机器人的 ImageNet 时刻」—— 谷歌 DeepMind 联合其他机构推出了 Open X-Embodiment 数据集,训练出了能力更强的 RT-X 模型。
智源研究院还特邀了谷歌 RT-1 和 RT-2 的作者 Ted Xiao 带来分享。
Ted Xiao 回顾了 scaling law 如何在 RT-1 和 RT-2 的逐步生效。而最近与 o1 一起爆红的思维链,或许也能带给机器人领域新的启发。
Ted Xiao 介绍了 RT-Hierarchy 策略。机器人执行任务之前,会先生成一个「语言运动查询」,用于预测一些粗粒度的动作,比如「向前移动手臂」。随后,系统会生成一个具体的「动作查询」,将动作分解为更细致的步骤。
有时候,机器人并不知道自己在做什么
「有的时候,机器人并不知道自己在做什么。」这可能是这场峰会被反复 cue 到的一句话。
清华大学自动化系教授,加速进化联合创始人赵明国展示了一场精彩的机器人足球赛。踢足球是一项天然的具身智能任务,机器人需要判断球的位置,并协调下一步的动作。从上世纪 90 年代开始,日本本田开启了提升机械腿自主行走能力的探索。
尽管机器人的运动策略经历了一代又一代的技术革新,但在今年的 RoboCup 上,我们仍然看到了这样的一幕:面对空无一人的球门,即使足球已经压在门线上,出战的机器人选手却做不出判断:要不要补上决定性的临门一脚呢?
要使机器人在行为层面展现出真正的智能,赵明国认为关键在于根据不同身体部位的功能分工来设计和训练机器人。如果一个机器人能够掌握手部的典型任务,如抓取和放置物体,腿部的踢球,以及需全身协调的骑自行车等任务,逐步攻克,最终将这些能力扩展到实际应用中。
同样提出这个问题的还有星尘智能的创始人兼 CEO 来杰。在开发机器人的过程中,他发现,虽然大语言模型为机器人提供了很多知识,但这些知识离世界的底层逻辑还很远。
例如,机器人已经从无数次训练中熟练地掌握了开瓶盖技巧,但如果递给它一瓶横放的矿泉水,它不会像人类一样下意识地先将瓶子竖直,而是直接打开,水都洒了出来。
世界模型可以补全机器人感知中缺少的这些细节和背景信息。在等待世界模型的开花结果的过程中,星尘智能把目标设定为 Design for AI,机器人平台将作为中间态,为世界模型提供丰富的数据支持。而当世界模型最终成熟的时候,就要做最好的终端。
吉林大学唐敖庆讲席教授、曼彻斯特大学终身教授任雷则带来了一种不需要动脑,仅凭「肌肉记忆」,机器人就能自主行动的全新方案。
他带领研究团队结合神经解剖学和生理学,深入纳米级别,解码人类的触觉感知与运动神经控制机理,提出了仿生拉压体机器人机制。
即使在 X 光的透视下,仿生拉压体机器人几乎完全重现了人体自然行走的三维步态。相比波士顿动力采用的动力系统,机器人花费的能耗也降低了一个数量级。
中国科学院计算技术研究所研究员蒋树强从涉身性、交互性和情境性等维度,结合哲学视角,对具身智能这一概念进行了深入分析和定位。
机器人进厂打工,走到哪一步了?
乐聚机器人创始人冷晓琨分享了人形机器人产业的一线视角,「虽然比不上造车,但工业场景对人形机器人的需求已经足够支撑一个新的产业。」
乐聚机器人也正在科研平台、商业服务 、工业流水线、家庭康养、城市巡逻等各种场景中发光发热。其中,最多的订单对标展厅导览、导购的岗位。
无需长期培训,也不会频繁跳槽的人形机器人,可以节省高达 60% 的成本投入。
要让机器人坐在流水线上打螺丝,达到熟练工人的装配水平,触觉感知至关重要。没有触觉感知,机器人很难掌握螺栓应该拧到什么程度。
大湾区大学 (筹) 讲席教授,先进工程学院院长王煜认为,人形机器人产业化的关键在于让触觉信息转化为运动信号,让机器人能真正地得心应手。
当前,王煜团队在高动态触觉传感器领域的一系列突破,正为这一目标按下「加速键」。
面对工厂中复杂的任务,一双灵巧手亦不可或缺。中科院自动化所研究员王鹏及其团队注意到,人类手部之所以能够完成各种复杂的操作任务,很大程度上得益于其高度的灵活性和对环境的适应性。
于是,在设计通用灵巧操作具身智能体系 Casia Hand 系列时,他们特别注重强调柔顺性与刚性的结合,确保机器人在执行任务时既能保持稳定,又能避免对目标物体造成损伤。
One more thing
相较于传统 AI 三要素数据、算法、算力,具身智能在硬件这一新要素上了有了更多要求。以上四要素的协同进化,推动了具身智能的新范式变革。
在圆桌讨论中,智源研究院副院长林咏华也向嘉宾们提出了一个问题:「从硬件、数据、算法、芯片四个方面,哪个对搭载具身智能的机器人最重要?」
尽管每个要素都面临着无数等待探索的问题和挑战,但数据显得尤为迫切,智源研究院呼吁构建一个开放、标准化、低成本且便于复制的数据平台。
作为即将突破万亿规模的市场,具身智能的年复合增长率已达到 20.7%。在这火热的浪潮中,学术界和工业界,都需要更多像智源峰会这样的交流与讨论,也需要更多冷静的观察与深思。