物体姿势预计对于各种应用至关重要,例如机器人操纵和混合现实。实例级要领通常需要纹理 CAD 模型来生成训练数据,并且不能应用于测试时未见过的新物体;而类别级要领消除了这些假定(实例训练和 CAD 模型),但获取类别级训练数据需要应用额外的姿势标准化和检查步骤。
为了解决这些问题,来自英伟达的钻研团队提出了一个统一的框架,称为 FoundationPose,它在鉴于模型和无模型树立下,运用 RGBD 图象对新奇物体举行姿势预计和跟踪。如下图所示,FoundationPose 优于现有专门针对这四项任务中每一项的 SOTA 要领。FoundationPose 通过大规模分解训练实现了强大的泛化能力,辅以大型语言模型(LLM)、以及一种新奇的鉴于 Transformer 的架构和对比学习。该钻研利用神经隐式默示填补了鉴于模型和无模型树立之间的差距,使得 FoundationPose 可以运用少量(约 16 张)参考图象举行有效的新奇视图分解,实现了比之前的衬着与比较要领 [32, 36, 67] 更快的衬着速度。钻研论文被评为 CVPR 2024 满分论文,代码已开源。
论文:FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
论文地址:https://arxiv.org/abs/2312.08344
项目主页:https://nvlabs.github.io/FoundationPose/
项目代码:https://github.com/NVlabs/FoundationPose
总的来说,该钻研的主要贡献包括:
提出了一个统一的框架,用于新奇物体的姿势预计和跟踪,支持鉴于模型和无模型树立。一种以物体为中心的神经隐式默示用于有效的新奇视图分解,弥合了这两种树立之间的差距。
提出了一种 LLM 辅助的分解数据生成流程,通过多样的纹理增强扩展了 3D 训练资源的种类。
提出新奇的鉴于 Transformer 的网络架构设计和对比学习公式在仅运用分解数据举行训练时实现了强大的泛化能力。
FoundationPose 要领在多个公共数据集上大幅优于针对每个任务专门化的现有要领。即使减少了假定,它甚至实现了与实例级要领可比的结果。
要领介绍
FoundationPose 是一个用于 6D 物体姿势预计和跟踪的统一大模型,支持鉴于模型和无模型树立。该要领可以立即应用于新奇的物体上,无需微调,只要给出其 CAD 模型,或者拍摄少量参考图象即可。FoundationPose 通过神经隐式默示来弥合这两种树立之间的差距,这种默示允许有效的新视图分解,并在同一统一框架下保持下游姿势预计模块的不变性。
通过大规模分解训练、大型语言模型(LLM)、一种新奇的鉴于 Transformer 的架构和对比学习公式的辅助,FoundationPose 实现了强大的泛化能力。在涉及挑战性场景和物体的多个公共数据集上举行了广泛评估,结果表明 FoundationPose 在性能上大幅优于现有的针对每个任务专门化的要领。此外,尽管减少了假定,但 FoundationPose 达到了与实例级要领相当的结果。
FoundationPose的框架概述如下图所示,为了减少大规模训练的手动工作,该钻研利用最近出现的技术和资源,包括 3D 模型数据库、大型语言模型和扩散模型,开发了一种新奇的分解数据生成流程。为了弥合无模型和鉴于模型的树立之间的差距,该钻研利用一个以物体为中心的神经场举行新奇视图的 RGBD 衬着,以便后续举行衬着与比较。对于姿势预计,该钻研首先在物体周围均匀初始化全局姿势,然后通过精细化网络对其举行改进,最后将改进后的姿势传递给姿势选择模块,该模块预测它们的得分。具有最佳得分的姿势被选为输出。
3.1 大语言模型辅助的大规模数据生成
为了实现强大的泛化能力,需要大量不同的物体和场景用于训练。在现实世界中获取这样的数据,并标注准确的地面真值 6D 姿势是耗时且成本高昂的。另一方面,分解数据通常缺乏 3D 模型的规模和多样性。该钻研开发了一个新奇的分解数据生成流程用于训练,借助了最近出现的资源和技术:大规模 3D 模型数据库 [6, 10],大型语言模型(LLM)和扩散模型 [4, 24, 53]。与之前的工作 [22, 26, 32] 相比,这种要领显著提高了数据量和多样性。
顶部:FS6D [22] 中提出的随机纹理混合。底部:LLM 辅助的纹理增强使外观更加逼真。最左边是原始的 3D 模型。其中文本提示由 ChatGPT 自动生成。
3.2 神经辐射场物体建模
对于无模型树立,当 3D CAD 模型不可用时,一个关键挑战是有效地默示物体,以便为下游模块生成具有足够质量的图象。神经隐式默示对于新奇视图分解和在 GPU 上可并行化均非常有效,因此在为下游姿势预计模块衬着多个姿势假定时提供了高计算效率,如图 2 所示。为此,该钻研引入了一个以物体为中心的神经场默示来举行物体建模,灵感来自先前的工作 [45, 65, 71, 74]。一旦训练完成,神经场可以被用作传统图形管线的替代品,以执行对物体的高效衬着,用于后续的衬着和比较迭代。除了原始 NeRF [44] 中的颜色衬着之外,还需要深度衬着来举行鉴于 RGBD 的姿势预计和跟踪。
为此,该钻研执行 Marching Cubes [41] 来从 SDF 的零级集中提取一个带有纹理的网格,并与颜色投影结合。这只需要为每个物体执行一次。在推断时,给定任意物体姿势假定,然后按照光栅化过程来衬着 RGBD 图象。另外,也可以直接运用神经场做 online 和球追踪 [14] 来衬着深度图象;然而,钻研团队发现这样做效率较低,特别是在需要并行衬着大量姿势假定时。
3.3 姿势假定生成
给定 RGBD 图象,可以运用类似于 Mask RCNN [18] 或 CNOS [47] 这样的现成要领来检测物体。该钻研运用在检测到的 2D 边界框内位于中位深度处的 3D 点来初始化平移。为了初始化旋转,该钻研从以物体为中心的球体上均匀采样 Ns 个视点,相机朝向球心。这些相机姿势还通过 Ni 个离散化的平面旋转举行增强,从而产生 Ns・Ni 个全局姿势初始化,这些姿势被发送到姿势精化器作为输入。姿势精化网络架构如总览图所示。
该钻研首先运用单个共享的 CNN 编码器从两个 RGBD 输入分支中提取特征图。特征图被级联起来,通过带有残差连接的 CNN 块举行处理,并通过位置嵌入举行分块化。最后,网络预测平移革新∆t ∈ R^3 和旋转革新∆R ∈ SO (3),每个都由一个 Transformer 编码器 [62] 单独处理,并线性投影到输出维度。更具体地说,∆t 代表了物体在相机坐标系中的平移移动,∆R 代表了物体在相机坐标系中默示的方向革新。在实践中,旋转是用轴 – 角度默示举行参数化的。该钻研还尝试了 6D 默示 [78],它达到了类似的结果。然后该钻研革新了输入的粗略姿势 [R | t] ∈ SE (3)。
其中 ⊗ 默示在 SO (3) 上的革新。与运用单一的齐次姿势革新不同,这种分离默示在应用平移革新时消除了对革新后方向的依赖性。这统一了相机坐标系中的革新和输入观察,从而简化了学习过程。网络训练由 L2 损失监督:
其中 ¯t 和 R¯ 是地面真实值;w1 和 w2 是平衡损失的权重,根据经验树立为 1。
3.4 最终输出姿势选取
给定一系列经过精化的姿势假定,该钻研运用一个分层姿势排名网络来计算它们的得分。得分最高的姿势被选为最终预计值。下图显示姿势排序可视化。该钻研提出的分层比较利用了所有姿势假定之间的全局上下文,以更好地预测整体趋势,使形状和纹理都能对齐。真正的最佳姿势用红色圆圈标注。
实验和结果
该钻研采用 5 个数据集对 FoundationPose 要领举行了实验评估:LINEMOD [23],OccludedLINEMOD [1],YCB-Video [73],T-LESS [25] 和 YCBInEOAT [67]。这些数据集涉及各种具有挑战性的场景(密集杂乱、多实例、静态或动态场景、桌面或机器人操作),以及具有不同属性的物体(无纹理、闪亮、对称、尺寸变化)。
由于 FoundationPose 是一个统一的框架,该钻研考虑了两种树立(无模型和鉴于模型)以及两个姿势预测任务(6D 姿势预计和跟踪)之间的组合,总共有 4 个任务。对于无模型树立,从数据集的训练集中选择了一些捕获新奇物体的参考图象,并配备了物体姿势的地面真值注释,按照 [22] 的要领。对于鉴于模型的树立,为新奇物体提供了 CAD 模型。
除了消融实验外,在所有评估中,FoundationPose 始终运用相同的训练模型和配置举行推断,而无需任何微调。此外该钻研还提交了结果至 BOP 排行榜并取得了第一名的成绩。
团队介绍
该论文来自于英伟达钻研院。其中论文一作华人温伯文博士,任钻研员。他的钻研方向为机器人感知和 3D 视觉,此前曾在谷歌 X、Facebook Reality Labs、亚马逊和商汤实习,获得过 RSS 最佳论文奖提名。
个人主页:https://wenbowen123.github.io/