李飞飞:不要数字孪生,要数字表兄弟,一张照片生成机器人训练场景

不百分百还原出虚拟场景,效果反而更好。我们很多人都听说过数字孪生(digital twin),在英伟达等公司的大力推动下,这种高效运营工作流程的方法已经在很多工业场景中得到应用。但你听说过数字表亲(digital cousin)吗?

不百分百还原出虚拟场景,效果反而更好。

我们很多人都听说过数字孪生(digital twin),在英伟达等公司的大力推动下,这种高效运营工作流程的方法已经在很多工业场景中得到应用。

但你听说过数字表亲(digital cousin)吗?

近日,斯坦福大学李飞飞团队就做出了一个这样的研究,其可有效地将真实数据变成适用于机器人学习的模拟数据 —— 在降低真实转模拟成本的同时还能提升学习的泛化性能。

图片

简单来说,你只需拍一张照片,就能将照片中的物体变成虚拟版本,并且这个数字虚拟版本还不是照片中物体的一比一复刻,而是存在一定的变化。

图片

我们知道,在真实世界中训练机器人并不安全,而且成本很高,难以大规模扩展。这就是模拟的用武之地,其成本低,并且可以源源不断地获取训练数据。但是,模拟的问题也很明显,模拟环境和真实环境总归不一样,存在含义和物理机制上的差异。

为了解决这种差异,数字孪生的概念诞生了。简单来说,数字孪生就是为真实场景构建一个虚拟副本,但其成本很高,并且难以实现跨域泛化。

为了解决这些局限,李飞飞团队提出了数字表亲(digital cousin)的概念。不同于数字孪生,数字表亲并不是真实物体的虚拟对应,而只是具有相似的几何和语义特质和属性。

图片

  • 论文标题:ACDC: Automated Creation of Digital Cousins for Robust Policy Learning

  • 论文链接:https://arxiv.org/abs/2410.07408

  • 项目地址:https://digital-cousins.github.io/

如此一来,数字表亲既能降低生成相似的虚拟环境的成本,还能通过提供相似训练场景的分布而实现更好的跨域泛化。基于数字表亲,该团队提出了一种用于自动创建数字表亲的全新方法,该方法就叫做自动数字表亲创建(Automatic Creation of Digital Cousins),简称 ACDC。

他们还提出了一种全自动的「真实→虚拟→真实」流程,可用于生成完全可交互的场景以及训练可以零样本方式部署在原始场景中的机器人策略。

结果表明,ACDC 得到的数字表亲可以成功保留几何与语义特质和属性,同时训练得到的机器人策略也优于使用数字孪生得到的策略:在零样本虚拟→真实迁移条件下,能以 90% 的成功率胜过数字孪生的 25%。

方法概述

ACDC 由三个连续步骤构成:

  1. 首先,从输入的 RGB 图像中提取出每个物体的相关信息。

  2. 接下来,基于一个资产数据集,使用该信息来为每个检测到的输入物体匹配数字表亲。

  3. 最后,对选取的数字表亲进行后处理,生成一个完全可交互的模拟场景。

图片

实验

该团队进行一系列实验,试图解答以下研究问题:

问题 1:ACDC 能否得到高质量的数字表亲场景?给定一张 RGB 图像,ACDC 能否捕获原始场景中固有的高层级语义和空间细节? 

问题 2:当在原始设置上进行评估时,基于数字表亲训练得到的策略能否与基于数字孪生得到的策略相媲美?

问题 3:相比于基于数字孪生训练得到的策略,基于数字表亲训练得到的策略是否更加稳健

问题 4:基于数字表亲训练得到的策略能否实现零样本「虚拟→真实」策略迁移

通过 ACDC 进行场景重建

图片

                                       在模拟 - 模拟场景中,ACDC 对场景重建进行定量和定性评估。

其中,「Scale」是输入场景中两个物体的边界框之间的最大距离。「Cat.」表示正确分类的物体与场景中物体总数的比例。「Mod.」显示正确建模的物体与场景中物体总数的比例。「L2 Dist.」提供输入和重建场景中边界框中心之间的欧几里得距离的平均值和标准差。「Ori. Diff.」表示每个中心对称物体的方向幅度差异的平均值和标准差。「Bbox IoU」表示资产 3D 边界框的交并比 (IoU)。

图片

                                      定性 ACDC 真实 - 模拟场景重建结果。针对给定场景显示多个表亲。

基于这些结果,我们可以放心地回答问题 1:ACDC 确实可以保留输入场景的语义和空间细节,从单个 RGB 图像生成现实世界对象的表亲,这些表亲可以准确定位和扩展,以匹配原始场景。

使用数字表亲进行模拟 - 模拟策略学习

图片

图片

                                     模拟-模拟策略结果。

在精确孪生、不同数量的表亲和三个最近类别的所有资产上训练的策略的汇总成功率。策略在四种设置上进行测试:精确数字孪生和三种越来越不相似的设置(以 DINOv2 嵌入距离为衡量标准)以探测零样本泛化。请注意,对于任务 3,使任务可行的橱柜模型要少得多,因此这里仅比较数字孪生和 8 个表亲的策略。

使用数字表亲进行模拟-真实策略学习

图片

图片

                                         数字孪生与数字表亲策略的零样本真实世界评估。任务是打开宜家橱柜的门,衡量标准是成功率:模拟 / 真实结果在 50/20 次试验中取平均值。

真实-模拟-真实的场景生成和策略学习

图片

                        全自动数字表亲生成。ACDC 的无剪切视频完全自动执行,为真实厨房场景生成了多个数字表亲。ACDC 步骤 1 末尾的轴对齐边界框无需加速即可做到可视化。

图片

                                      零样本模拟到真实世界策略迁移。专门从上面生成的四个数字表亲训练的模拟策略,我们可以零样本迁移到相应的真实厨房场景。

基于这些结果,我们可以放心地回答问题 2、3、4:与在数字孪生上训练的策略相比,使用数字表亲训练的策略表现出相当的分布内性能和更稳健的分布外性能,并且可以实现零样本模拟到真实策略迁移。

图片

                                    一些失败的案例。

结论

作为一种全自动管道,ACDC 用于快速生成与单个现实世界 RGB 图像相对应的完全交互式数字表亲场景。我们可以发现,利用这些数字表亲训练的策略比在数字孪生上训练的策略更稳健,具有可媲美的域内性能和卓越的域外泛化能力,同时也支持零样本模拟到现实的策略转移。

相关资讯

AIGC时代的「数字生命计划」已启动!

从碳基生命到硅基生命的剧变正在悄然降临。即使总是伴随着关于伦理、人性与法律等问题的争论,人类从来没有放弃过挣脱时空限制、实现灵魂永恒的尝试。近几年《上载新生》《万神殿》《爱死机》《西部世界》这些剧作,无不在重温着二十多年前《黑客帝国》和《楚门世界》的内核。而《流浪地球 2》的上映,更将「数字生命」的讨论推向了高潮。影片中研究员图恒宇在女儿丫丫濒死时用数字生命卡保留了她生命的数据,在超级计算机 550 w 的多次迭代后,数据形态的图丫丫拥有了自我意识,获得了「完整的一生」。《流浪地球 2》剧照,图恒宇和丫丫简而言之,

沙特阿美同 AI 芯片创企 Groq 签署备忘录,将在沙特建设全球最大推理数据中心

据 AI 芯片设计企业 Groq 官网当地时间本月 12 日新闻稿,这家创企已同石油巨头沙特阿美的数字与技术子公司 Aramco Digital 签订谅解备忘录,将一同在沙特阿拉伯建设全球最大规模的推理数据中心。AI在线获悉,Aramco Digital-Groq 沙特阿拉伯大型数据中心的优势在于当地能源价格较低、有足够建设空间,同时与全球近一半人口的网络时间距离不超过 100ms ping。参考彭博社报道,该数据中心将于今年年底建成投运,初期将包括 19000 个 Groq 的 LPU 语言处理器,每天可处理数以

消息称“AI 教母”李飞飞正建立初创公司,开发可理解 3D 空间关系的 AI 系统

当地时间周六,据路透社援引 6 名知情人士消息,计算机科学家李飞飞正在建立一家初创公司。该公司旨在利用类似人类的视觉处理技术,使 AI 具备高级推理能力,有望成为 AI 技术的一次飞跃。IT之家注:李飞飞被广泛称为“AI 教母”,与通常用来指因 AI 技术突破而在 2018 年获得图灵奖的三位研究人员的“AI 教父”对应。这三名“AI 教父”则是杰弗里・辛顿、杨立昆、约书亚・本西奥。一位消息人士通过李飞飞上个月在温哥华 TED 大会发表的演讲,对这家初创公司进行了详细描述:李飞飞曾表示,最前沿的研究涉及一种算法,这