清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

具身智能创业如火如荼,技术路线是否收敛、以及数据来源的选择,都是大家一直关心的问题。 最近清华北大的团队密集发布了很多研究成果,我们或许可以从中分析出一些趋势。 23 年初成立的银河通用背后是前如布科技联创尹方鸣和姚腾洲、科学家是北大助理教授王鹤。

具身智能创业如火如荼,技术路线是否收敛、以及数据来源的选择,都是大家一直关心的问题。最近清华北大的团队密集发布了很多研究成果,我们或许可以从中分析出一些趋势。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

23 年初成立的银河通用背后是前如布科技联创尹方鸣和姚腾洲、科学家是北大助理教授王鹤。银河通用是低成本仿真路线的拥护者,经过 2 年努力于近期重磅发布了 GraspVLA,思路与 RoboCasa、RoboGen 等类似,在海量合成的仿真环境中合成机器人数据。但 GraspVLA 只关注抓取任务,将预训练的 AnyGrasp 模型部署到仿真中采集大量数据来训练一个 VLA。在仿真中可以加入很多随机化、以提升 VLA 的泛化性。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力AnyGrasp、GraspVLA、OpenVLA demo视频对比

2024 年 9 月成立的灵初智能,CEO 是前京东机器人总裁王启斌、以及机器人算法负责人柴晓杰、李飞飞学生陈源培,背后科学家包括北大助理教授杨耀东和梁一韬。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力Psi R0 的 demo 视频

与银河通用类似,灵初智能也是在仿真环境中大规模预训练模型,但在模仿学习中加入了强化学习技术、以及真机数据对齐微调训练,使得即使只用少量仿真和真机数据也能做到很泛化的复杂任务,实现不同技能顺滑串联操作。2024 年 12 月底发布的 Psi R0 模型完成了双手协作长程的泛化打包任务,已展现出了该模型能实现真正商业化的强大潜力。

灵初智能此前的其他成果,比如 lego 组装也是长程的灵巧手任务,可以突破过去强力抓取的能力边界、完成更灵活的抓取和灵巧动作。根据之前的公开信息,灵初智能将于 3 月份发布自研本体以及更泛化的具身大模型。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力以上为 Lego 组装视频

在数据选择方面,23 年 9 月成立的清华系星海图持完全不同的观点,他们认为数据价值上,真机数据 > 互联网数据 > 仿真数据。星海图 CEO 是 Momenta 前执行董事高继扬,科学家包括清华助理教授赵行和许华哲。他们计划今年发布 100 万条真机数据、明年发布 1000 万条真机数据。

星海图计划采用真机数据为主来预训练具身大模型、而不是灵初和银河那种大规模仿真数据预训练。但以大规模真机数据为主存在 diverse 不足的问题,无法涌现泛化。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力以上为星海图 real2sim2real 视频 demo

在仿真数据方面,星海图强调 Real2Sim2Real 后训练。仿真数据只作为后训练的一个强化剂,将真实数据在仿真中加入随机化来扩充 1000 倍,以实现更高的成功率和更好的落地效果。

清北团队进军具身智能,银河通用、灵初智能、星海图齐发力

三家清北团队在算法和数据选择上略有不同。灵初智能在算法上强调强化学习、银河在数据上强调仿真、星海图强调真实数据。不过各家都采用了仿真和真实数据结合的方法,只是在预训练和后训练上强调不同的数据比例。

期待这几家准独角兽公司在未来带来更多的惊喜。清华北大是具身智能创新的先锋,近期还有很多有意思的成果。比如清华星动纪元 ERA-42、北大与国地共建具身智能中心 RoboMind、北大与智元 OmniManip、清华千寻智能 CoPa 和 Data Scaling Law 等工作都很值得分析。

相关资讯

构建人形机器人需要的三种电脑,英伟达都提供

在未来的 5 到 10 年里,我们即将见证 AI 从虚拟世界走向现实。

高瓴、蓝驰领投灵初智能,强化学习开启具身智能初纪元

近日,灵初智能完成天使轮融资,本轮融资由高瓴创投(GL Ventures)和蓝驰创投(Lanchi Ventures)领投。 本轮融资完成后,灵初智能将继续推进基于强化学习算法的机器人技能集训练、场景化的数据生成及采集、端到端解决方案的研发及落地,打造业界领先的通用灵巧操作智能体。 灵初智能创始人王启斌博士在手机、智能音箱、机器人领域有近 20 年的成功操盘经验,多次实现产品从定义、开发、到上市、再到全球化 0-1-N 的产业闭环,是一名深谙机器人商业化落地的 “老兵”。

百川智能发布超千亿大模型Baichuan 3,中文评测水平超GPT-4

1 月 29 日,百川智能正式发布千亿参数的大语言模型 Baichuan 3。在多个权威通用能力评测如 CMMLU、GAOKAO 和 AGI-Eval 中,Baichuan 3 都展现了出色的能力,尤其在中文任务上更是超越了 GPT-4。而在数学和代码专项评测如 MATH、HumanEval 和 MBPP 中同样表现出色,证明了 Baichuan 3 在自然语言处理和代码生成领域的强大实力。不仅如此,其在对逻辑推理能力及专业性要求极高的 MCMLE、MedExam、CMExam 等权威医疗评测上的中文效果同样超过了