物体姿势预计在许多现实世界应用中起到至关重要的作用,例如具身智能、机器人灵巧操作和增强现实等。
在这一领域中,最先受到关注的任务是实例级别 6D 姿势预计,其需要关于目的物体的带标注数据进行模型训练,使深度模型具有物体特定性,无法迁移应用到新物体上。后来研究热点逐步转向类别级别 6D 姿势预计,用于处理未见过的物体,但要求该物体属于已知的感兴趣类别。
而零样本 6D 姿势预计是一种更具泛化性的任务设置,给定随意率性物体的 CAD 模型,旨在场景中检测出该目的物体,并预计其 6D 姿势。尽管其具有重要意义,这种零样本的任务设置在物体检测和姿势预计方面都面临着巨大的挑战。
图 1. 零样本 6D 物体姿势预计任务示意
最近,分隔一切模型 SAM [1] 备受关注,其出色的零样本分隔能力令人瞩目。SAM 通过各种提示,如像素点、包围框、文本和掩膜等,兑现高精度的分隔,这也为零样本 6D 物体姿势预计任务提供了可靠的支撑, 展现了其前景的潜力。
因此,来自跨维智能、香港中文大学(深圳)、华南理工大学的研究人员提出了一个新颖的零样本 6D 物体姿势预计框架 SAM-6D。该论文目前已被 CVPR 2024 接受。
论文链接: https://arxiv.org/pdf/2311.15707.pdf
代码链接: https://github.com/JiehongLin/SAM-6D
SAM-6D 通过两个步骤来兑现零样本 6D 物体姿势预计,包括实例分隔和姿势预计。相应地,给定随意率性目的物体,SAM-6D 操纵两个专用子网络,即实例分隔模型(ISM)和姿势预计模型(PEM),来从 RGB-D 场景图像中兑现目的;其中,ISM 将 SAM 作为一个优秀的起点,结合精心设计的物体婚配分数来兑现对随意率性物体的实例分隔,PEM 通过全部到全部的两阶段点集婚配过程来解决物体姿势问题。SAM-6D 的总览如图 2 所示。
图 2. SAM-6D 总览图
总体来说,SAM-6D 的技术贡献可概括如下:
SAM-6D 是一个创新的零样本 6D 姿势预计框架,通过给定随意率性物体的 CAD 模型,兑现了从 RGB-D 图像中对目的物体进行实例分隔和姿势预计,并在 BOP [2] 的七个核心数据集上表现优异。
SAM-6D 操纵分隔一切模型的零样本分隔能力,生成了所有可能的候选东西,并设计了一个新颖的物体婚配分数,以识别与目的物体对应的候选东西。
SAM-6D 将姿势预计视为一个全部到全部的点集婚配问题,采用了一个简单但有效的 Background Token 设计,并提出了一个针对随意率性物体的两阶段点集婚配模型;第一阶段兑现粗糙的点集婚配以获得初始物体姿势,第二阶段使用一个新颖的茂密到稠密点集变换器以进行精细点集婚配,从而对姿势进一步优化。
实例分隔模型 (ISM)
SAM-6D 使用实例分隔模型(ISM)来检测和分隔出随意率性物体的掩膜。
给定一个由 RGB 图像表征的杂乱场景,ISM 操纵分隔一切模型(SAM)的零样本迁移能力生成所有可能的候选东西。对于每个候选东西,ISM 为其盘算一个物体婚配分数,以预计其与目的物体之间在语义、外观和几何方面的婚配程度。最后通过简单设置一个婚配阈值,即可识别出与目的物体所婚配的实例。
物体婚配分数的盘算通过三个婚配项的加权求和得到:
语义婚配项 —— 针对目的物体,ISM 渲染了多个视角下的物体模板,并操纵 DINOv2 [3] 预训练的 ViT 模型提取候选东西和物体模板的语义特色,盘算它们之间的相关性分数。对前 K 个最高的分数进行平均即可得到语义婚配项分数,而最高相关性分数对应的物体模板视为最婚配模板。
外观婚配项 —— 对于最婚配模板,操纵 ViT 模型提取图像块特色,并盘算其与候选东西的块特色之间的相关性,从而获得外观婚配项分数,用于区分语义相似但外观不同的物体。
几何婚配项 —— 鉴于不同物体的形状和大小差异等因素,ISM 还设计了几何婚配项分数。最婚配模板对应的旋转与候选东西点云的平均值可以给出粗略的物体姿势,操纵该姿势对物体 CAD 模型进行刚性变换并投影可以得到边界框。盘算该边界框与候选边界框的交并比(IoU)则可得几何婚配项分数。
姿势预计模型 (PEM)
对于每个与目的物体婚配的候选东西,SAM-6D 操纵姿势预计模型(PEM)来预测其相对于物体 CAD 模型的 6D 姿势。
将分隔的候选东西和物体 CAD 模型的采样点集分别表示为 和,其中 N_m 和 N_o 表示它们点的数量;同时,将这两个点集的特色表示为和,C 表示特色的通道数。PEM 的目的是得到一个分配矩阵,用于表示从 P_m 到 P_o 之间的全部到全部对应关系;由于遮挡的原因,P_o 只部分与婚配 P_m,而由于分隔不准确性和传感器噪声,P_m 也只部分与婚配 P_o。
为了解决两个点集非重叠点的分配问题,ISM 为它们分别配备了 Background Token,记为 和 ,则可以基于特色相似性有效地建立全部到全部对应关系。具体来说,首先可以盘算注意力矩阵如下:
接着可得分配矩阵
和 分别表示沿着行和列的 softmax 操作, 表示一个常数。 中的每一行的值(除了首行),表示点集 P_m 中每个点 P_m 与背景及 P_o 中点的婚配概率,通过定位最大分数的索引,则可以找到与 P_m 婚配的点(包括背景)。
一旦盘算获得 ,则可以聚集所有婚配点对 {(P_m,P_o)} 以及它们的婚配分数,最终操纵加权 SVD 盘算物体姿势。
图 3. SAM-6D 中姿势预计模型 (PEM) 的示意图
操纵上述基于 Background Token 的策略,PEM 中设计了两个点集婚配阶段,其模型结构如图 3 所示,包含了特色提取、粗略点集婚配和精细点集婚配三个模块。
粗糙点集婚配模块兑现茂密对应关系,以盘算初始物体姿势,随后操纵该姿势来对候选东西的点集进行变换,从而兑现位置编码的学习。
精细点集婚配模块结合候选东西和目的物体的采样点集的位置编码,从而注入第一阶段的粗糙对应关系,并进一步建立密集对应关系以得到更精确的物体姿势。为了在这一阶段有效地学习密集交互,PEM 引入了一个新颖的茂密到稠密点集变换器,它兑现在密集特色的茂密版本上的交互,并操纵 Linear Transformer [5] 将增强后的茂密特色扩散回密集特色。
实验结果
对于 SAM-6D 的两个子模型,实例分隔模型(ISM)是基于 SAM 构建而成的,无需进行网络的重新训练和 finetune,而姿势预计模型(PEM)则操纵 MegaPose [4] 提供的大规模 ShapeNet-Objects 和 Google-Scanned-Objects 合成数据集进行训练。
为验证其零样本能力,SAM-6D 在 BOP [2] 的七个核心数据集上进行了测试,包括了 LM-O,T-LESS,TUD-L,IC-BIN,ITODD,HB 和 YCB-V。表 1 和表 2 分别展示了不同方法在这七个数据集上的实例分隔和姿势预计结果的比较。相较于其他方法,SAM-6D 在两个方法上的表现均十分优异,充分展现其强大的泛化能力。
表 1. 不同方法在 BOP 七个核心数据集上的实例分隔结果比较
表 2. 不同方法在 BOP 七个核心数据集上的姿势预计结果比较
图 4 展示了 SAM-6D 在 BOP 七个数据集上的检测分隔以及 6D 姿势预计的可视化结果,其中 (a) 和 (b) 分别为测试的 RGB 图像和深度图,(c) 为给定的目的物体,而 (d) 和 (e) 则分别为检测分隔和 6D 姿势的可视化结果。
图 4. SAM-6D 在 BOP 的七个核心数据集上的可视化结果。
关于 SAM-6D 的更多兑现细节, 欢迎阅读原论文.
参考文献:
[1] Alexander Kirillov et. al.,“Segment anything.”
[2] Martin Sundermeyer et. al.,“Bop challenge 2022 on detection, segmentation and pose estimation of specific rigid objects.”
[3] Maxime Oquab et. al.,“Dinov2: Learning robust visual features without supervision.”
[4] Yann Labbe et. al.,“Megapose: 6d pose estimation of novel objects via render & compare.”
[5] Angelos Katharopoulos et. al., “Transformers are rnns: Fast autoregressive
transformers with linear attention.”