稚晖君开源百万机器人真机数据集

年末大礼包,稚晖君他又双叒来开源了! 百万真机数据集开源项目AgiBot World,也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。 该项目由稚晖君具身智能创业项目智元机器人,携手上海AI Lab、国家地方共建人形机器人创新中心以及上海库帕思联合发布。

年末大礼包,稚晖君他又双叒来开源了!

百万真机数据集开源项目AgiBot World,也是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。

该项目由稚晖君具身智能创业项目智元机器人,携手上海AI Lab、国家地方共建人形机器人创新中心以及上海库帕思联合发布

GitHub和抱抱脸上已经可以自取了(本文文末附直通车)~

稚晖君开源百万机器人真机数据集

说起来,此前在该领域在全球内,不是没有玩家做过大规模的数据集:

比如谷歌DeepMind曾构建过Open X-Embodiment数据集,数据整合自22种不同本体的机器人。

但其中大部分数据缺乏统一标准化的采集流程,且许多用于数据采集的机器人构型已经过时,数据质量格式参差不齐——这就可能在机器人策略学习过程中带来副作用。

稚晖君开源百万机器人真机数据集△谷歌DeepMind的Open X-Embodiment

又比如斯坦福、UC伯克利、谷歌等构建的DROID数据集,涵盖了相对丰富的场景与技能,虽然尽可能实现规范化的数据采集流程。

但作者团队自己在后续研究中指出,DROID存在大量低质量数据,反而让机器人越学越迷茫。

2024年以来,具身智能备受瞩目,行业玩家纷纷涌现,很多初创公司都基于自采集的大规模高质量双臂机器人数据训练的模型展现出了整理、分拣、洗衣等执行复杂动作的能力。

这虽然进一步印证了高质量数据在当前具身智能领域研究阶段的重要性,但这类数据集一般仅作自用

据介绍,相比于Open X-Embodiment数据集,此次开源的AgiBot World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。

一起来看看,这个数据集包含了些什么——

日常生活中多样化任务,可多机器人协作

官方资料显示,AgiBot World数据集收录了80余种日常生活中的多样化技能

从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

稚晖君开源百万机器人真机数据集

下面举几个栗子~

毫米级精细控制

演示场景为插内存条。需要如神经纤维般灵敏的末端触觉传感器助力机器人精准对接,稍有不慎可能导致设备损坏。

稚晖君开源百万机器人真机数据集

繁琐长流程家务整理

该任务下演示场景1为整理洗碗机。

画面中,勺筷碗盘层层堆叠在洗碗池里。在这条数据中,机器人将杂乱的餐具逐一整理到洗碗机相应卡槽中。

稚晖君开源百万机器人真机数据集

该任务下演示场景2为挂式熨烫衣物。

机器人通过双手协作,一只手抓住衬衫的一角,另一只手控制挂烫机与衣物的距离,熨烫衣物褶皱。

稚晖君开源百万机器人真机数据集

搭建物体搬运

搬运大件物体这项任务,目前对单机器人来说是个老大难。

数据集中采集的是双机器人协作,分担重量的同时,通过实时调整位置与角度,确保物体搬运过程中的稳定安全。

稚晖君开源百万机器人真机数据集

尽可能覆盖日常生产、生活全域场景

团队介绍,AgiBot World是从智元机器人自建的大规模数据采集工厂与应用实验基地中采集的,采集空间总面积超过4000平方米,包含3000多种真实物品。

稚晖君开源百万机器人真机数据集

为了尽可能覆盖机器人在生产、生活中的典型应用需求,为机器人提供高度真实的生产生活环境,采集环境包含超过100种真实场景、3000多种物品

其中,80%的任务为长程任务,时长集中在60s-150s之间,且涵盖多个原子技能,是DROID和OpenX-Embodiment工作的5倍。

稚晖君开源百万机器人真机数据集

值得一提的是,按照日常生活真实需求,团队主要复刻了5个核心场景,分别是:

家居(40%)、餐饮(20%)、工业(20%)、商超(10%)和办公(10%)。

主打的就是通过多场景的高度还原与任务设计,为机器人研发和测试构建一个能够实现具身智能的必要条件。

稚晖君开源百万机器人真机数据集

首先,家居场景。

主要再现真实住宅布局,包括卧室、客厅、厨房、卫生间等核心空间。有助于训练机器人家务清洁、物品整理和厨房任务等。

在客厅,机器人可以精确控制机械臂抓取花材,精确定位花瓶的插孔,将花朵按计划插入适当位置。

稚晖君开源百万机器人真机数据集

也可以使用清扫工具对地面进行全面清洁,包括碎屑、灰尘和液体等。

稚晖君开源百万机器人真机数据集

还可以清理家居表面的灰尘和污垢,精确控制掸子或软布进行擦拭,避免划伤表面。

稚晖君开源百万机器人真机数据集

让我们把视线从客厅转换到厨房。

在厨房,机器人可以根据食材种类和沙拉配方,完成切割、混合和装盘操作,也可以控制清洁工具对瓶内外进行刷洗,去除污渍。

稚晖君开源百万机器人真机数据集

如果再把场景切换到卫生间,机器人可以精准控制机械臂使用刷子清洁卫生间马桶。

稚晖君开源百万机器人真机数据集

其次,餐饮场景。

主要实现智能服务体验,模拟前厅、后厨与用餐区域,包括点餐台、备餐区、餐桌等。有助于训练机器人实现餐厅服务(点餐、上菜、清理餐桌)、食材传递、后厨协作等。

再者,工业场景。

主要模拟分拣与物流自动化,复刻工业仓库与生产线,包括分拣系统、打包设备、传输带等。有助于训练机器人实现物料分拣、包装打包、物流搬运等。

在工厂,机器人在流水线上利用机械臂精准控制将物品放入指定的包装盒中,实现物品自动打包。

稚晖君开源百万机器人真机数据集

还有商超场景。

这一场景下,主要高度还原超市货架布局与收银区设计,包含生鲜、日用、冷冻等多个品类区域。有助于训练机器人模拟物品上架、货物盘点、顾客引导、无人结算等。

在超市,机器人可以精准控制扫码枪对待结算物品进行扫描和帮助客人装袋。

稚晖君开源百万机器人真机数据集

采集本体过硬+严控数据质量

上面所提到的AgiBot World的所有数据,都是由下面这款机器人采集的:

稚晖君开源百万机器人真机数据集

它具有以下几个特点:

  • 360°感知:8个摄像头环绕式布局,实时全方位感知周围环境的动态变化。
  • 灵巧操作:可配备具有6个主动自由度的灵巧手,保障动作精准且灵活,完成多种复杂操作。
  • 末端精细感知:标配末端六维力传感器,并可配备高精度视触觉传感器,能够感知力的微小变化,做到“拿捏有度”。
  • 高自由度:全身最高32个自由度,应对洗衣、做饭、分拣、搬运等复杂任务。

此外,由于AgiBot World的超大规模真实数据特性,团队通过专业培训、多级质量把控、全程人工在环,以确保严格精细化控制数据质量。

任务设计环节,AgiBot World从设计初稿到设计迭代流程,均邀请了学术、工业、消费者来进行多视角任务把关。

数据采集环节,由管理体系下的专业管理图那对来保障采集员培训和采集质量把控。

审核标注环节,首先会经过端云两侧,严格筛选采集的数据,自动剔除不符合要求的数据。

此外专业审核员会人工对全量数据进行逐帧审核,确保每一个动作都符合任务标准,并对关键帧和数据特性进行多维度标注。

算法验证环节,通过人工审核的数据,还会由AgiBot World团队进一步通过算法进行验证。

对于未能通过验证的数据,会重新设计任务进行数据补采,确保数据可用性。

稚晖君开源百万机器人真机数据集

One More Thing

这次开源AgiBot World数据集,是稚晖君在三个月内的第三次开源举动

第一次是9月底,开源了专为具身智能打造的轻量化、高性能通信框架AimRT。

上一次是10月24日(没错就是踩点1024),智元人形机器人灵犀X1全套资料全球开源,包括设计图纸和代码。

稚晖君开源百万机器人真机数据集

至于下一步——

量子位得来的消息是,开源,开源,还是开源(莫不是稚晖君想做源神)。

内幕消息一并放在这里,大家就等着他慢慢慢慢慢慢填坑吧,真的(真诚脸.jpg)。

  • 百万真机全量数据将陆续开源;
  • 千万仿真数据同步推送,支持更泛化和更通用的大模型训练;
  • 发布具身基座大模型,支持模型微调,赋能千行百业;
  • 发布全套工具链,实现采集、训练和评测完美闭环;
  • 举办一系列AgiBot World Challenge

稚晖君开源百万机器人真机数据集

GitHub链接:

https://github.com/OpenDriveLab/AgiBot-World

抱抱脸链接:

https://huggingface.co/agibot-world

项目主页:

https://agibot-world.com/

相关资讯

弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎豆瓣小红书

离大谱了,弱智吧登上正经 AI 论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错,论文中的 Ruozhiba 就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院

美国酝酿 AI「登月计划」,陶哲轩领衔 62 页报告重磅发布

【新智元导读】就在刚刚,陶哲轩领衔的一份 62 页报告出炉了,总结和预测了 AI 对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现,美国酝酿的 AI「登月计划」就将成真。就在刚刚,陶哲轩领衔的一份 AI 技术对全球研究潜在影响的技术报告发布了。这份报告长达 62 页,总结了 AI 对材料、半导体设计、气候、物理、生命科学等领域已经做出的改变,以及预测它们在未来可能由 AI 产生的改变。报告地址: AI 工具已经改变的科学领域的小插曲,陶哲轩等人还发出了三个呼吁 ——1.

微软正努力治疗 AI 幻觉,以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时,微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型响应,这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示,“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源,因此我们认为自己可以帮助阐明“应该如何负责任地使用新