翻车,才是斯坦福炒菜机器人学习人类的常态

Mobile ALOHA 也有翻车时刻。电视剧中角色的惊艳亮相不一定能打动你的心,但斯坦福全职管家兼御用大厨一定能拿下你对机器人的期待。你还记得斯坦福 Mobile ALOHA 的神操作吗?备菜、翻炒、出锅,洗衣、逗猫、浇花它是样样精通。不过它也并非一直如此优秀。人有失足,马有失蹄,ALOHA 也有翻车时刻。我们一起品鉴一下 ALOHA 的「报错」操作。原本是为了擦酒杯下的酒渍,或许是怕观众老爷看不出,只能多洒出来一点来引起注意。每个物品都是独立的个体,锅、油、虾、碟都将有属于自己的归宿。抓走物品旁边的空气,四舍五

Mobile ALOHA 也有翻车时刻。

电视剧中角色的惊艳亮相不一定能打动你的心,但斯坦福全职管家兼御用大厨一定能拿下你对机器人的期待。

你还记得斯坦福 Mobile ALOHA 的神操作吗?备菜、翻炒、出锅,洗衣、逗猫、浇花它是样样精通。不过它也并非一直如此优秀。人有失足,马有失蹄,ALOHA 也有翻车时刻。我们一起品鉴一下 ALOHA 的「报错」操作。

原本是为了擦酒杯下的酒渍,或许是怕观众老爷看不出,只能多洒出来一点来引起注意。

翻车,才是斯坦福炒菜机器人学习人类的常态

每个物品都是独立的个体,锅、油、虾、碟都将有属于自己的归宿。

图片

抓走物品旁边的空气,四舍五入也算是抓走了物品。

图片

别人炒菜用时五分钟,机器人大厨先用一分钟炒一炒锅。

图片

看到这样的行动表现,打破了我们对 Mobile ALOHA 的美好期待,坐等机器人为我们养老只能是「阳光下的泡沫,一触就破」。翻车,才是斯坦福炒菜机器人学习人类的常态

实际上,在最初两个 Mobile ALOHA 火爆的视频中,不少读者对于它的行为方式就有些错误的认知。比如在帮男生刮胡子这项任务中,可能大家都误以为这是机器人自主完成的,然而事实并非如此,这是通过人类远程控制完成的:

图片

来自英伟达的研究科学家 Jim Fan 对此发布了推文,提醒大家别因为视频的惊艳程度就忽略了其中技术真相。他提到,应该将 Mobile ALOHA 看作是一辆制造精良的跑车,而它仍需要人类驾驶才能表现出自己的能力。现在的水平与能够完全自主的厨师还有较大的差距。

图片

其实,研究团队在发布 Demo 时的项目页面中就对 Mobile ALOHA 的工作进行了明确分类。其中包括 Mobile ALOHA 能够自主完成的任务以及需要远程操作完成的任务。

研究团队在介绍时表示,对于一些简单的任务,Mobile ALOHA 可以在 50 次学习之后达到 90% 的行动成功率。对于一些简单的任务,如炒一只虾仁(有且只有一只)、拿块抹布、摆放好椅子,Mobile ALOHA 无需人类指点,还是可以自己 hold 住的。

图片

Mobile ALOHA 可以自己完成的任务

不过,更加复杂的任务,如像炒虾仁滑蛋、打蛋、装盘等复杂操作,它依旧需要人类远程操控,而且有些视频还做了 10 倍加速处理。

图片

依旧需要远程操控才能完成的任务

在机器人技术领域,从人类示范中进行的模仿学习已经取得了令人瞩目的成绩。其实训练 Mobile ALOHA 的过程就是像是在玩游戏 —— 操作机器人直到动作通关。Mobile ALOHA 之所以能够让人发出惊叹,是因为它所展示的任务不局限于桌面操作。这些复杂且灵活的动作源于研究者开发的一套系统,用于模仿需要全身控制的双臂移动操作任务。利用 Mobile ALOHA 收集的数据,进行有监督的行为克隆。

在上一篇文章中,我们已经分享了 Mobile ALOHA 具体的技术细节,但是并不直观。

图片

图(左)展示了操作机器人最简单的方法就是将操作员的腰部与移动底座系在一起的。

加州大学圣地亚哥分校学生梁力天在 X 上发布了 Mobile ALOHA 的体验视频,他操纵 ALOHA 拿取箱子上的物品。简单来讲,如果你现在拥有了 Mobile ALOHA,最重要的一步就是需要你与 Mobile ALOHA「合二为一」。翻车,才是斯坦福炒菜机器人学习人类的常态虽然梁力天没有体验炒虾这样的高难度任务,但是依旧对 Mobile ALOHA 的技术表示了认可:它的直接关节映射使用起来非常直观,这使它成为比 VR 控制器更好的解决方案。这样的能力,只要 3.2 万美元的预算真的太值了。

图片

图源:https://twitter.com/litian_liang/status/1744555501860638921

https://twitter.com/DrJimFan/status/1744786506810900679

在这个体验视频发出后,大家都很好奇,远程操控的原理到底是什么?Jim Fan 是这样解释的:

训练机器人就像在真实世界中玩游戏,一个人操作一个操纵杆来执行任务和收集数据,在遇到安全问题时进行及时的干预。

远程操控可以通过不同的方式完成,这里有一些其他选择:

动作捕捉(MoCap):应用动捕系统来捕捉手部关节的细粒度运动。例如,演示者可以佩戴 CyberGlove 并操纵对象。CyberGlove 会实时捕捉运动信号和触觉反馈,然后将其重新定位到人形机器人上。

 另一种比较笨拙的方法是佩戴专用手套以及进行一些标记(markers)。NVIDIA 的 DexPilot 可实现无标记且无需戴手套的数据收集。人类操作员只需徒手即可执行任务。

VR 头显:将训练室视为虚拟现实游戏,并扮演机器人,这样做的优势是可以进行可扩展的远程数据收集。

最后,Jim Fan 说道,「我相信,只要有好的硬件,到 2024 年底,我们就能大幅提升自主技能。」

图片

参考链接:

https://twitter.com/DrJimFan/status/1744786506810900679

https://twitter.com/tonyzzhao/status/1743378437174366715

https://mobile-aloha.github.io/resources/mobile-aloha.pdf

https://mobile-aloha.github.io/

https://twitter.com/litian_liang/status/1744555501860638921

相关资讯

斯坦福开源的机器人厨子,今天又接手了所有家务

机器人忙碌的一天。这年头,机器人真的要成精了,带回家后是个做家务的小能手。烹饪几道美食手到拈来,一会儿功夫速成大餐:滑蛋虾仁、蚝油生菜、干贝烧鸡,不知道的还以为是真人厨师做成的:备菜环节也是做的有模有样,只见它熟练的拿出一颗生菜切掉根部,然后轻轻的敲打鸡蛋放入碗中:打蛋环节还知道要把蛋壳丢到一边,看样子是个讲究的机器人,再也不怕吃煎蛋时意外吃到蛋壳的惊吓了:煎炒环节机器人进行不停地翻炒,以免糊锅:还不忘给蚝油生菜注入灵魂蒜末。这次咱不用菜刀拍蒜,普通的水果刀也能切出蒜泥来,可见刀功了得:最后将做好的酱汁淋到生菜上,

论学手艺,波士顿动力机器人可不是他们的对手

机器之能报道编辑:陈萍、Sia波士顿动力机器人运动技能的提升并没有很大程度改善人形机器人进入日常家庭服务的能力。基于大型语言模型(LLM)的生成 AI 取得突破后,人形机器人“大脑”演化也开始狂飙突进,曾被认为过于耸人听闻且效率低下的人形机器人开始以新的方式掌握人类基本生活技能,走进我们的生活。Keppler人形机器人人类拥有灵活的双手,可以辅助我们完成复杂的任务。可惜,除了跑酷跳跃,我们没有看到波士顿动力的机器人做过任何家务,比如叠衣服或者其他需要用到灵活手指的活儿。不过,给下面这些人形机器人安上一双手后,大家干

一句指令自动玩手机,网上冲浪神器Mobile-Agent来了

一直以来,让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下,AI 需要根据用户的要求自动操作手机,逐步完成任务。随着多模态大语言模型(Multimodal Large Language Model,MLLM)的快速发展,以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中,这使得借助多模态 agent 实现手机操作助手成为了可能。本文将介绍一篇最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobil