Mobile ALOHA 也有翻车时刻。
电视剧中角色的冷艳亮相不一定能打动你的心,但斯坦福全职管家兼御用大厨一定能拿下你对机器人的期待。
你还记得斯坦福 Mobile ALOHA 的神操纵吗?备菜、翻炒、出锅,洗衣、逗猫、浇花它是样样精通。不过它也并非一直如此优秀。人有失足,马有失蹄,ALOHA 也有翻车时刻。我们一起品鉴一下 ALOHA 的「报错」操纵。
原本是为了擦酒杯下的酒渍,或许是怕观众老爷看不出,只能多洒出来一点来引起注意。
每个东西都是独立的个体,锅、油、虾、碟都将有属于自己的归宿。
抓走东西旁边的空气,四舍五入也算是抓走了东西。
别人炒菜用时五分钟,机器人大厨先用一分钟炒一炒锅。
看到这样的行动表现,打破了我们对 Mobile ALOHA 的美好期待,坐等机器人为我们养老只能是「阳光下的泡沫,一触就破」。
实际上,在最初两个 Mobile ALOHA 火爆的视频中,不少读者对于它的行为方式就有些错误的认知。比如在帮男生刮胡子这项任意中,可能大家都误以为这是机器人自决完毕的,然而事实并非如此,这是通过人类长途控制完毕的:
来自英伟达的研究科学家 Jim Fan 对此发布了推文,提醒大家别因为视频的冷艳程度就忽略了其中技术真相。他提到,应该将 Mobile ALOHA 看作是一辆制造精良的跑车,而它仍须要人类驾驶才能表现出自己的能力。现在的水平与能够完全自决的厨师还有较大的差距。
其实,研究团队在发布 Demo 时的项目页面中就对 Mobile ALOHA 的工作从事了明确分类。其中包括 Mobile ALOHA 能够自决完毕的任意以及须要长途操纵完毕的任意。
研究团队在介绍时表示,对于一些简略的任意,Mobile ALOHA 可以在 50 次学习之后达到 90% 的行动成功率。对于一些简略的任意,如炒一只虾仁(有且只有一只)、拿块抹布、摆放好椅子,Mobile ALOHA 无需人类指点,还是可以自己 hold 住的。
Mobile ALOHA 可以自己完毕的任意
不过,更加繁杂的任意,如像炒虾仁滑蛋、打蛋、装盘等繁杂操纵,它保持须要人类长途操控,而且有些视频还做了 10 倍加速处理。
保持须要长途操控才能完毕的任意
在机器人技术领域,从人类示范中从事的模仿学习已经取得了令人瞩目的成绩。其实训练 Mobile ALOHA 的过程就是像是在玩游戏 —— 操纵机器人直到行动通关。Mobile ALOHA 之所以能够让人发出惊叹,是因为它所展示的任意不局限于桌面操纵。这些繁杂且灵活的行动源于研究者开发的一套系统,用于模仿须要全身控制的双臂移动操纵任意。利用 Mobile ALOHA 采集的数据,从事有监督的行为克隆。
在上一篇文章中,我们已经分享了 Mobile ALOHA 具体的技术细节,但是并不直觉。
图(左)展示了操纵机器人最简略的方法就是将操纵员的腰部与移动底座系在一起的。
加州大学圣地亚哥分校学生梁力天在 X 上发布了 Mobile ALOHA 的体验视频,他操纵 ALOHA 拿取箱子上的东西。简略来讲,如果你现在拥有了 Mobile ALOHA,最重要的一步就是须要你与 Mobile ALOHA「合二为一」。虽然梁力天没有体验炒虾这样的高难度任意,但是保持对 Mobile ALOHA 的技术表示了认可:它的直接关节映射使用起来非常直觉,这使它成为比 VR 控制器更好的解决方案。这样的能力,只要 3.2 万美元的预算真的太值了。
图源:https://twitter.com/litian_liang/status/1744555501860638921
This is how ALOHA's "teleoperation" system works – a fancy word for "remote control". Training robots will be more and more like playing games in the physical world. A human operates a "joystick++" to perform tasks and collect data, or intervene if there's any safety concern.… pic.twitter.com/be6ppXW7ch
— Jim Fan (@DrJimFan) January 9, 2024
在这个体验视频发出后,大家都很好奇,长途操控的原理到底是什么?Jim Fan 是这样解释的:
训练机器人就像在真实世界中玩游戏,一个人操纵一个操纵杆来执行任意和采集数据,在遇到安全问题时从事及时的干预。
长途操控可以通过不同的方式完毕,这里有一些其他选择:
行动捕获(MoCap):应用动捕系统来捕获手部关节的细粒度运动。例如,演示者可以佩带 CyberGlove 并操纵对象。CyberGlove 会实时捕获运动信号和触觉反馈,然后将其重新定位到人形机器人上。
另一种比较笨拙的方法是佩带专用手套以及从事一些标记(markers)。NVIDIA 的 DexPilot 可实现无标记且无需戴手套的数据采集。人类操纵员只需徒手即可执行任意。
VR 头显:将训练室视为虚拟现实游戏,并扮演机器人,这样做的优势是可以从事可扩展的长途数据采集。
最后,Jim Fan 说道,「我相信,只要有好的硬件,到 2024 年底,我们就能大幅提升自决技能。」
参考链接:
This is how ALOHA's "teleoperation" system works – a fancy word for "remote control". Training robots will be more and more like playing games in the physical world. A human operates a "joystick++" to perform tasks and collect data, or intervene if there's any safety concern.… pic.twitter.com/be6ppXW7ch
— Jim Fan (@DrJimFan) January 9, 2024
Robots are not ready to take over the world yet! @zipengfu and I just compiled a video of the dumbest mistakes 𝐌𝐨𝐛𝐢𝐥𝐞 𝐀𝐋𝐎𝐇𝐀🏄 made in the autonomous mode 🤣
We are also planning to organize some live demos after taking a break. Stay tuned! pic.twitter.com/8PIofwEyXb
— Tony Z. Zhao (@tonyzzhao) January 5, 2024
https://mobile-aloha.github.io/resources/mobile-aloha.pdf
https://mobile-aloha.github.io/
Although I didn’t get to fry shrimp, I am astonished by the capability of Mobile ALOHA. The direct joint mapping of mobile aloha is intuitive to use, making it a much better solution than VR controllers. The 32k budget with this level of capability is just 🤯. This will… pic.twitter.com/W6sGVq6aW4
— Litian Liang (@litian_liang) January 9, 2024