让AI进入物理世界,首届中国具身智能大会展望智能新纪元

前不久,图灵奖得主Yann Lecun在Lex Fridman的播客中讲道:机器人行业的兴起已经等待了 10、20 年,而这个行业的发展要寄希望于AI的进步。AI 发展可谓是瞬息万变。科技巨头们不是抢占时机,比谁先发布,就是猛攻质量,比性能优劣。2022 年还被称为 AIGC 元年,而 2024 年,就已经来到了具身智能元年。何为具身智能?先不谈定义,看看下面这些展示,你有属于自己的理解吗?具身智能其实是基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智

前不久,图灵奖得主Yann Lecun在Lex Fridman的播客中讲道:机器人行业的兴起已经等待了 10、20 年,而这个行业的发展要寄希望于AI的进步。

AI 发展可谓是瞬息万变。科技巨头们不是抢占时机,比谁先发布,就是猛攻质量,比性能优劣。2022 年还被称为 AIGC 元年,而 2024 年,就已经来到了具身智能元年。

何为具身智能?先不谈定义,看看下面这些展示,你有属于自己的理解吗?

图片

图片图片图片

具身智能其实是基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

以上展示来自 3 月 30-31 日上海徐汇西岸举办的首届中国具身智能大会(China Embodied AI Conference,CEAI)场外。作为人工智能与人形机器人两大前沿技术的结合,具身智能产业是新质生产力的重要组成部分。在这场大会上可以看到具身智能的最新发展方向,也给产、学、研三方带来共同讨论的机会。9 场主旨演讲报告和 14 个专题论坛生动讲述了具身智能的定义、重要性以及发展态势,让参会者能够切身感受到具身智能就在身边,并正在兴起。

图片

                               2024 中国具身智能大会现场

人工智能的缺憾:数字 AI 与物理世界的距离

中国工程院院士、中国具身智能大会大会主席蒋昌俊表示,以 OpenAI 为代表的企业通过生成式无监督预训练,利用大量互联网文本和图像数据,构建了如 ChatGPT 和 GPT-4 这样的大语言模型。这些模型首次展示了 AI 解决多种任务的能力,跨越了领域限制,让我们窥见了实现通用人工智能的潜力。虽然像 ChatGPT 这样的大模型已展现出处理多模态数据和满足人类需求的交互能力,但这种交互仍然局限于数字世界。要实现真正的通用人工智能,我们需要赋予它们在真实物理世界中的交互能力。这就意味着 AI 需要拥有实体,让它们像人类一样具备感知、思考和行动的能力。

图片

                                 蒋昌俊在中国具身智能大会开幕式上讲话

由此可见,具身智能不仅是机器学习、自然语言处理、计算机视觉等技术的集成应用,它还能将物理世界通过传感器映射到数字世界中,并以此来链接二者,让 AI 真的能够在物理世界中有所作为。

大模型强大的通用能力已经显现:上下文对话、生成创作、代码、逻辑推理、计算等多个方面都能够轻松拿捏。但是如何将这样的能力拓展到更多应用上呢?在本次大会的大模型与具身智能专题论坛中,上海人工智能实验室双聘领军科学家代季峰表示,首先要将研究目标设定为多模态通用模型,这样才能为大语言模型装上手脚和眼睛,与现实世界交互。

和物理世界连接,需要「身」的存在

你对机器人应用的了解还停留在哪里?是会做家务的斯坦福机器人,还是已经能进厂打工的 Atlas。这些和我们生活密切相关的机器人似乎更能吸引注意,但是在你注意不到的地方,机器人还发挥着你想象不到的功能。

例如在遥远的太空中,机器人仍然有着它们的大放异彩的时候。面对极端环境条件,复杂任务,机器人帮助人类做了很多做不了的事情。在农业方面,机器人能够帮助人类施肥、洒药、收割;制造的逆过程,如动力电池拆解也是具身智能一个巨大的产业场景;建筑行业的搬运与基本工作它们也能够发挥作用。

这就要求,它们既需要有解决任务的聪明「头脑」,还有能够精准操作的「身体」。正如英国皇家工程院院士、南方科技大学机器人研究院院长戴建生所说,智能要实现和物理世界的联合,就需要具身的这个「身」。

除了应用场景的局限,你对机器人形态的想象是不是也有些局限。除了不同用途的机器人形态不同,你有没有想过同一个机器人也能像变形金刚一样变化不同的形态。

在大会主旨演讲报告中,戴建生向参会者介绍了「变胞机器人」。在现场,他放出一张《变形金刚》剧照,讲述了机器人与汽车结构互换带来的思考:我们的机器人能不能在不同的情况下进行形态上的转变?身体形态会影响虚拟生物在复杂环境的适应学习能力,而相应的,复杂环境也对促进虚拟生物在形态和智能上的进化。

进化机器人的发展共有四个阶段:进化机构、智变机构、机构变异、变胞机构。而变胞机器人开创了具身智能的「环境适应身体」:根据环境自主改变结构,调整模态,实时进化。

图片

                               现场视频展示,机器人形态多变,适应不同场景

这样的变胞机理可以实现一机多能的目标。不过,它还有非常重要的前提,如多传感器信息融合、导航与定位、路径规划、机器人视觉等。其中,在视觉和听觉都比较发达的机器人感知系统之外,触觉也是一个新兴的传感方面的赋能节点,这意味着传感器的发展有着新的方向。毕竟,在精细工作中,准确的力度、角度、姿势都将决定任务的成败。

具身智能产业在快速发展的同时,在成果转化、应用场景、商业模式等方面还有待完善。针对业界广泛关注的共性问题,本次大会邀请了全球具身智能领域的顶尖专家分享行业最前沿的智慧和经验。与会专家围绕具身智能的前沿科学问题、应用场景、竞争格局、发展前景等展开热议。智慧时代,未来已来,一幅软件和硬件双向奔赴、相互赋能的生动图景正在徐徐拉开。

相关资讯

全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步

具身智能,首先就是要共用 AI。过去一年,生成式人工智能发展的核心关键词,就是「大」。人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界知识,从而拟合出更加智能的结果。那么,为什么人工智能的进展还没有转化成科幻片中那种全能管家机器人呢?能清理桌子、叠衣服、做早餐的机器人在哪里?一个重要的原因是机器人领域很难「大力出奇迹」,生成式 AI 的文字或图片训练数据在网络上就能轻

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

近期,具身智能方向取得了诸多进展。从谷歌的 RT-H 到 OpenAI、Figure 联合打造的 Figure 01,机器人的交互性、通用性越来越强。如果未来机器人成为人们日常生活的助手,你期待它们能够完成哪些任务?泡一杯热气腾腾的手冲咖啡,整理桌面,甚至帮你精心安排一场浪漫的约会,这些任务,只需一句指令,清华的具身智能新框架「CoPa」都能完成。CoPa(Robotic Manipulation through Spatial Constraints of Parts)是清华叉院高阳教授机器人研究团队最新提出的具

叠衣服、擦案板、冲果汁,能做家务的国产机器人终于要来了

将家务全部交给机器人的那一天,或许会比想象中更快到来。还记得会炒菜的斯坦福 ALOHA 机器人吗?现在,中国的初创公司自变量机器人(X Square)展示了同样令人惊艳的能力,甚至更进一步。在该公司最新展示的 Demo 中,完全基于大模型自主推理的双臂机器人,利用低成本硬件即实现对不规则物体的精细操作(如抓握、拾取、切割等),以及折叠衣服、冲泡饮料等复杂任务,展现出相当程度的泛化性能。折叠衣物(3 倍速播放):对柔性物体的操作长久以来都是困扰整个 manipulation 领域的难题,需要高度灵活的操作和精细的动作