人形机器人+LLMs=? 答案就在这个2分钟视频里

机器之能报道编辑：Sia你可以用自然语言与机器人交谈，并要求它完成一项使命。未来对机器人的控制可能会像骑马，你可以把AI看作是骑手，机器人的物理智能就是马。当生成 AI 被植入数千个系统中时，迟早有一天也会来到人形机器人身上。不过，Agility Robotics CEO Damion Shelton 最初并不相信它们的双足机器人须要这玩意儿。就我们的用例而言，还没有让大型语言模型（ LLM ）控制机器人的需求。客户不须要和自己的机器人进行有趣的对话，他们须要借助机器人的物理原理替代重复性劳作。当亚马逊于 10 月

机器之能报道

编辑：Sia

你可以用自然语言与机器人交谈，并要求它完成一项使命。未来对机器人的控制可能会像骑马，你可以把AI看作是骑手，机器人的物理智能就是马。

人形机器人+LLMs=? 答案就在这个2分钟视频里当生成 AI 被植入数千个系统中时，迟早有一天也会来到人形机器人身上。不过，Agility Robotics CEO Damion Shelton 最初并不相信它们的双足机器人须要这玩意儿。就我们的用例而言，还没有让大型语言模型（ LLM ）控制机器人的需求。客户不须要和自己的机器人进行有趣的对话，他们须要借助机器人的物理原理替代重复性劳作。

当亚马逊于 10 月中旬开始测试 Agility Robotics 的双足机器人Digit 时，这位亮蓝色的自主「打工人」看起来也比实际情况更聪明。「现实是，机器人还没有自我意识，它们现在甚至没有使用大型语言模型，」 Damion Shelton 当时说道。仅仅两个月后，情况就发生了变化。在本周三发布的两分钟「Embodied AI」示范中，升级后的 Digit 顺利完成工程师随意布置的口头使命。

人形机器人+LLMs=? 答案就在这个2分钟视频里

我们很好奇，将这项技术集成到 Digit 中可以实现什么。为此，Agility Robotics 给 Digit 创建了一个示范空间。视频中，机器人前方排列了四个不同高度的编号塔，身后也有三个不同高度的编号塔。后面的三个编号塔上，各有一个由几个不同特征（颜色、图案还有数字）定义的盒子。工作人员给 Digit 编码了这些环境信息，但没有编码任何具体使命。接入能理解复杂自然语言吩咐的 LLM 后，Digit 能否顺利完成随机分配的使命？视频中，机器人被告知将「达斯维达的光剑」颜色的盒子放到前面最高的塔上。人形机器人+LLMs=? 答案就在这个2分钟视频里示范视频界面，左下角的叠加层显示了机器人的内心独白，右下角的叠加层显示了物理世界中3D 导航的情况。Digit 并没有瞬间完成使命，而是深思熟虑地、慢慢进行着。在 LLM （接受了流行文化参考资料的训练）赋能下，Digit 知道什么是「达斯维达的光剑」。

它会思考「我应该找出可以使用的吩咐」，「应该首先评估环境，看看有哪些物品和地位可用」，以及「达斯维达的光剑是白色的，所以，白色的盒子是我须要静止的。」

静止到目标地位后，「我应该把白色盒子拿起来」。「现在有了白色盒子，我应该静止到前排最高的塔的地位，即编码是 4 的塔。」机器人还知道，前排最高的塔是 4 号塔。「我将首先静止到白色盒子的地位。」静止到目标地位后，机器人将光剑盒子放到了目标编码塔上。最后，它宣布工作完成：「我相信我已经完成了使命，因为我已经将达斯维达的光剑颜色的盒子（白色，盒子 2 ）移到了前排最高的塔楼（塔 4 ）。

人形机器人+LLMs=? 答案就在这个2分钟视频里 Digit 的内在思维全过程

人形机器人+LLMs=? 答案就在这个2分钟视频里

外在物理世界完整的3D导航过程

这个示范表明，LLM 能帮助机器人将抽象的人类吩咐转化为机器人可以理解的较低级别吩咐，因此，人们能够用自然语言与 Digit 交谈并要求它执行使命。这也展示出 LLM 如何增强人形机器人、让它们变得更通用、部署更快。Agility Robotics 表示。这是一种自然的契合，并将 Digit 描述为「 AI 的物理化身」。这不仅让人想起 Damion Shelton 的一个比喻，他曾将机器人控制比作骑马，「你可以把更高级的 AI 看作是骑手，机器人的物理智能就是马。」目前，该公司正准备在俄勒冈州的一家大型生产工厂每年生产 10,000 个 Digit 机器人。除了与亚马逊的合作之外，该初创公司本月还开始在佐治亚州的 Spanx 配送中心测试其人形机器人。

人形机器人+LLMs=? 答案就在这个2分钟视频里

Agility 表示，公司自主系统能够大幅降低机器人适应新仓库和使命的成本。但 AI 功能将使这一过程变得更快，这意味着，机器人可以部署到更广泛的使命领域，并最终走出仓库。有关 LLM 应用潜力的尝试是令人兴奋的—— 作为一种商用机器人系统，Digit 要与人类一起工作也须要学会倾听他们的声音。一些顶尖大学、研究实验室和公司正在探索将更高级的智能形式嫁接到机器人身上，解决现有方法难以解决的复杂机器人问题。卡耐基梅隆大学机器人学教授 Chris Atkeson 表示，开发人员正陷入一场激烈的竞争，以将最具吸引力、最有能力的智能体推向市场。「无论谁先脱颖而出……都可能会占据大量市场份额，」他说。今年早些时候，波士顿动力公司开始使用 ChatGPT 为其四足机器人 Spot 提供语音提示。丰田研究所也在使用生成式 AI 加速机器人学习，不用改代码，只用较少的案例就能教会机器人更多的使命。到目前为止，他们已经教会机器人 60 种不同的技能。最近，麻省理工学院 CSAIL 主任 Daniela Rus 也公开了自己的创业项目 Liquid AI——通过一种新型神经网络结构，即使在静止机器人有限的硬件能力下，也能享受生成 AI 的魔力。她指出，与模型预测解决方案相比，有了生成式 AI，可以得到更快、更流畅、更像人类的控制解决方案。她认为，这是非常强大的。未来的机器人的行动不会那么机械，动作会更流畅，就像人类。参考链接https://www.youtube.com/watch?v=CnkM0AecxYA

{{userData.name}}已认证

人形机器人+LLMs=? 答案就在这个2分钟视频里

短视频制作必看！6款AI神器帮你轻松定制高质量音乐素材

NeurIPS 2023｜真正、可控、可拓展，自动驾驭光照仿真平台LightSim上新了

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩