OpenAI机器人,一出手就是王炸

机器之能报道作者:机器之心编辑部网友:波士顿动力要整点新舞步,才能让Figure 01下热搜。「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」本周三,半个硅谷都在投的明星机器人创业公司 Figure,发布了自己第一个 OpenAI 大模型加持的机器人 demo。这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资,才十几天就直接用上了 OpenAI 的多模态大模型。如你所见,得到 OpenAI 大模型能力加持的 Figure 01 现在是这个样子的。它可以为听从人类的命令,

机器之能报道

作者:机器之心编辑部

网友:波士顿动力要整点新舞步,才能让Figure 01下热搜。

「借助 OpenAI 的能力,Figure 01 现在可以与人全面对话了!」

本周三,半个硅谷都在投的明星机器人创业公司 Figure,发布了自己第一个 OpenAI 大模型加持的机器人 demo。

OpenAI机器人,一出手就是王炸

这家公司在 3 月 1 日刚刚宣布获得 OpenAI 等公司的投资,才十几天就直接用上了 OpenAI 的多模态大模型。

如你所见,得到 OpenAI 大模型能力加持的 Figure 01 现在是这个样子的。

图片

它可以为听从人类的命令,递给人类苹果。

图片

将黑色塑料袋收拾进框子里。

图片

将杯子和盘子归置放在沥水架上。

图片

需要强调的是:你看到的这一切,只用到了一个神经网络。

完整的demo视频如下所示:

视频链接:https://mp.weixin.qq.com/s/2dppl15wwbDuuUcwmhP5ag

广大网友在看到如此惊艳的 demo 后,对机器人的发展速度感到震惊,我们似乎正处在这场汹涌的进化浪潮中。甚至有人感叹,已经准备好迎接更多的机器人了。

图片图片图片

还有网友调侃道:「波士顿动力:好的,伙计们,这是一场真正的竞争。让我们回到实验室,设计更多舞蹈套路。」

图片

所有这些,全是机器人自学的!

Figure创始人Brett Adcock表示,视频中Figure 01展示了端到端神经网络框架下与人类的对话,没有任何远程操作。并且,机器人的速度有了显著的提升,开始接近人类的速度。

图片

Figure机器人操作高级AI工程师Corey Lynch介绍了此次Figure 01的技术原理。他表示,Figure 01现在可以做到以下这些:

描述其视觉体验规划未来的行动反思自己的记忆口头解释推理过程

图片他接着解释道,视频中机器人的所有行为都是学到的(再次强调不是远程操作),并以正常速度(1.0x)运行。

在具体实现过程中,他们将机器人摄像头中的图像输入,并将机载麦克风捕获的语音文本转录到由 OpenAI训练的大型多模态模型中,该模型可以理解图像和文本。该模型对整个对话记录进行处理,包括过去的图像,从而获得语言响应,然后通过文本到语音的方式将其回复给人类。

此外,该模型负责决定在机器人上运行哪些学习到的闭环行为以完成给定的命令,从而将特定的神经网络权重加载到GPU上并执行策略。

图片将Figure 01 连接到大型预训练多模态模型为其提供了一些有趣的新功能。Figure 01 + OpenAI 现在可以:

描述其周围环境。使用常识推理做出决定。例如,「桌子上的盘子和杯子等餐具接下来可能需要放进沥水架」。将「我饿了」等模棱两可的高级请求转化为一些适合上下文的行为,例如「递给对方一个苹果」。用简单的英语描述为什么它执行特定的操作。例如,「这是我可以从桌子上为您提供的唯一可食用物品」。

图片

理解对话历史的大型预训练模型为Figure 01提供了强大的短期记忆

考虑一个简单的问题:「你能把它们放在那里吗?」

其中 「它们」指的是什么?「那里」又是哪里?正确回答这个问题需要反思记忆的能力。

通过预训练模型分析对话的图像和文本历史记录,Figure 01快速形成并执行计划:1)将杯子放在沥水架上,2)将盘子放在沥水架上。

图片

关于学到的低级双手操作,所有行为均由神经网络视觉运动transformer策略驱动,将像素直接映射到动作。这些网络以10hz 的频率接收机载图像,并以200hz的频率生成 24-DOF 动作(手腕姿势和手指关节角度)。

这些动作充当高速「设定点」,以供更高速率的全身控制器跟踪。这是一个有用的关注点分离,其中:

互联网预训练模型对图像和文本进行常识推理,以得出高级规划。学习到的视觉运动策略执行计划,执行难以手动指定的快速反应行为,例如在任何位置操纵可变形的袋子。全身控制器确保安全、稳定的动力,例如保持平衡。

最后他表示,即使在几年前,自己还认为人形机器人规划和执行自身完全学得行为的同时与人类进行完整的对话是几十年后才能看到的事情。显然,现在已经发生了太多变化。

图片Figure,具身智能时代最热创业公司

最近,生成式 AI 的竞争正在走向长文本、多模态,各家科技公司和机构也没有忘记投资下个热点——具身智能。

具身智能,对于计算机视觉、机器人等领域来说是一个很有挑战的目标:假设 AI 智能体(机器人)不仅能接收来自数据集的静态图像,还能在三维虚拟世界甚至真实环境中四处移动,并与周围环境交互,那我们就会迎来技术的一次重大突破,从识别图像等机器学习的简单能力,转变到学习如何通过多个步骤执行复杂的类人任务。

被生成式 AI 龙头 OpenAI 看好的具身智能,最有希望通向具身智能的公司,似乎就是这家 Figure。

3月1日,Figure 宣布完成惊人的 6.75 亿美元 B 轮融资,公司估值达到 26 亿美元。一眼望去,感觉半个硅谷都投了它:微软、英特尔、OpenAI Startup Fund、Amazon Industrial Innovation Fund 、英伟达、贝索斯、「木头姐」的方舟投资、Parkway Venture Capital、Align Ventures 等。

该公司的产品 Figure 01,据称是世界上第一个具有商业可行性的自主人形机器人,身高 1.5 米,体重 60 公斤,可承载 20 公斤货物,采用电机驱动。它的可工作时长是 5 小时,行走速度每秒 1.2 米,可以说很多指标已经接近人类。

自 2023 年 1 月以来,人们对 Figure 的关注度一直在上升。虽然到目前为止,公司一共才发布过四个 demo 视频。其中的一个展示了 Figure 01 是如何制作咖啡的:

图片

据Figure表示,机器人练习这些动作的方法是端到端的,神经网络的训练时间是10小时。

在 2 月 27 日的视频里,Figure 01 自主完成了一个典型的物流环节任务——搬运空箱。

图片

当然,速度还是比人类慢了很多。不过在这些任务中,Figure 01 都是完全自主地执行任务。所谓「完全自主」,是指只需将机器人放在地面上(无论放在屋里什么地方),在没有其他用户输入的情况下,直接按开始就行。在训练过的大型视觉语言模型( VLM )帮助下,人形机器人会先识别、定位目标箱子,然后推理合适的拿放姿势。接下来,Figure 01 会导航自己到目标跟前,检测抓取点和手部力量,尝试抓取成功并将箱子放到传送带上。这些技术亮点也是 Figure 和一直希望回归机器人领域的 OpenAI 达成合作协议的重要原因之一——将 OpenAI 的研究与 Figure 的机器人经验结合起来,为人形机器人开发下一代 AI 模型。OpenAI 也希望将自己的高性能多模态大模型扩展到机器人领域。除了接受大笔风投之外,Figure 也在积极拓展落地场景。目前,Figure 01 已经开始在宝马位于南卡罗来纳州斯帕坦堡的汽车工厂接受测试,人们计划让机器人替代人类从事一些危险度高的任务。参考链接:https://twitter.com/i/status/1767913661253984474https://www.figure.ai/

相关资讯

完蛋,CES 2024被机器人包围了

机器之能报道编辑:佳琪2024 年国际消费电子展(CES)这一科技界的风向标活动刚刚落幕。作为全球备受瞩目的科技盛会,CES 吸引了来自 150 多个国家和地区的 4000 多家尖端科技企业。各家品牌纷纷秀出了最先进的技术和产品。英伟达的 AI PC 布局、英特尔最新的第 14 代处理器、发布 3 天即售罄 3 万台的 Rabbit R1...... 今年的 CES 见证了亿点点新变革的发生。超过 13 万名参会者亲临现场,体验了一把「黑科技照进现实」的震撼。在 CES 的展厅里,机器人总是最引人注目的焦点,其中有

煮咖啡只是热身,人形机器人要去宝马工厂上班了

机器之能报道编辑:吴昕人形机器人何时能从研究项目过渡到商业产品?答案似乎是 2024 年。少数资金相对雄厚的公司将在商业试点项目中部署自己的机器人,以确定它们是否真的准备好为人类工作。看了十小时视频、透过端到端的系统学会如何做咖啡后, Figure 01 又要去工厂打工了。今天,总部位于加州的人形机器人初创公司Figure 宣布与宝马签署一项商业协议,将在宝马的美国制造工厂部署 Figure 01。这也是 Figure 自 2022 年成立以来签署的第一个商业协议。公司的人形机器人会被部署到位于南卡罗来纳州的斯帕坦

伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难

随着人工智能和机器人技术的迅速发展,功能操控(Functional Manipulation)在机器人学中的重要性愈加突出。传统的基准测试已无法满足目前机器人对复杂操控任务的需求,呼吁新的操控基准(Functional Manipulation Benchmark)出现。概述机器人操控面临两个主要挑战:机器人如何智能地处理复杂的接触动力学以及如何应对环境和物体的多样性。针对这些挑战,机器人学习技术被视为关键的解决手段。因此,该领域需要一个全面易得的框架,提供有挑战性的实际任务、高质量数据、易于复制的设置,集合了基线