灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作

该模型支持双灵巧手协同进行复杂操作,将多个技能串联混训,生成具有推理能力的智能体,从而完成并闭环长程灵巧操作任务。并且,Psi R0还可以实现跨物品、跨场景级别的泛化。

灵初智能发布首个基于强化学习(RL)的端到端具身模型 Psi R0

AI在线获悉,该模型支持双灵巧手协同进行复杂操作,将多个技能串联混训,生成具有推理能力的智能体,从而完成并闭环长程灵巧操作任务。并且,Psi R0 还可以实现跨物品、跨场景级别的泛化。

灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作

以电商场景为例,商品打包是典型的长程任务作业,需对上万件商品进行抓取,扫码,放置,塑料袋打结等多个操作。Psi R0 能够使用双灵巧手流畅地完成这一系列动作(官方称此系列动作在客户现场可以取代一个完整工位),成为首个基于强化学习训练完成长程灵巧操作任务的具身机器人。

灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作

官方表示,基于 RL 的 Psi R0 模型,使用海量仿真数据训练出双手操作的智能体,并通过双向训练框架串联多技能,在业界率先完成开放环境中的长程任务,具备较强的泛化能力与较高的鲁棒性(robustness)。

这一技能训练框架从物体时空轨迹抽象出关键信息以构建通用目标函数,从而解决奖励函数难设计的问题。在后训练阶段,通过少量高质量真机数据对齐,进一步提升长程任务的成功率。

灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作

除此之外,双向训练框架中的转移可行性函数发挥着重要作用,它能够微调技能以提高串联的成功率与泛化性,同时赋予模型自主切换技能的能力,使其在遭遇操作失败时能够迅速调整策略,确保高成功率。

灵初智能发布首个基于强化学习的端到端具身模型 Psi R0,双灵巧手协同进行复杂操作

相关资讯

下注端到端:一场具身智能的谨慎豪赌

作者 | 赖文昕编辑 | 陈彩娴上个月末,世界机器人大会(WRC 2024)在北京刚刚结束,27 款人形机器人果然成为了会场中的主角。 夹爪叠衣服、做汉堡,灵巧手抓鸡蛋、演手舞,轮式进商超,双足满场逛......在这场硅基生命的大 party 里,人形机器人们的才艺都得到了充分的展示,特别是在操作能力上有了显著提升。 在具身智能时代,人形机器人代表着人类创造者对通用机器人终极形态的一大向往。

大幅超越所有SOTA!地平线DiffusionDrive:生成式方案或将重塑端到端格局?

写在前面&笔者的个人理解近年来,由于感知模型的性能持续进步,端到端自动驾驶受到了来自工业界和学术界的广泛关注,端到端自动驾驶算法直接从原始传感器采集到的信息输入中学习驾驶策略。 这种基于数据驱动的方法为传统的基于规则的运动规划提供了一种可扩展且强大的替代方案,而传统的基于规则的运动规划通常难以推广到复杂的现实世界驾驶环境。 为了有效地从数据中学习驾驶过程,主流的端到端规划器通常从自车查询中回归出单模轨迹,如下图所示。

2 小时内收集数据学会新任务,星动纪元端到端原生机器人大模型 ERA-42 发布

模型不需要任何预编程技能,完全基于其泛化和自适应力,能在不到 2 小时内通过收集少量数据就学会执行新的任务。