第一个以「泛化」才能为核心设计原则的可学习图象婚配器来了!
对于想要获取两张图象之间的细粒度视觉对应关系而言,全部图象特性婚配技术是高不错的 xuanz,对于实现准确的相机姿态估计和 3D 重建至关重要。过去十年见证了从手工制作到鉴于学习的图象特性的演变。
最近,研究社区又提出了新颖的可学习图象婚配器,在传统基准上实现了功能的不断矫正。尽管已经取得了长足的进步,但这些进展忽略了一个重要方面:图象婚配模型的泛化才能。
如今,大多数全部特性婚配研究都集中在具有丰富训练数据的特定视觉范围(如室外和室内场景),这就导致了模型高度专用于训练范围。遗憾的是,这些格式的功能在域外数据(如以对象为中心或空中捕获)上通常急剧下降,在某些情况下甚至可能并不比传统格式好很多。
因此,传统的域无关技术(如 SIFT)仍被广泛用于获取下游应用的姿态。并且由于收集高质量注释的成本很高,在每个图象域都有丰富的训练数据是不现实的,就像其他一些视觉任务一样。因此,社区应该专注于开发架构矫正,使得可学习的婚配格式具有泛化才能。
近日,受上述观察的启发,德克萨斯大学奥斯汀分校和谷歌研究院的研究者联合提出了 OmniGlue,这是第一个以泛化为核心原则设计的可学习图象婚配器。在与域无关的全部特性前提上,他们引入了用于提高婚配层泛化功能的新技术:前提模型辅导和关键点地位注意力辅导。
论文地址:https://arxiv.org/pdf/2405.12979
项目主页:https://hwjiang1510.github.io/OmniGlue/
如图 1 所示,通过引入的技术,OmniGlue 能够在分布外范围上实现更好泛化功能,同时保持源范围上的高质功能。
研究者首先整合了前提模型的广泛视觉知识。通过对大规模数据进行训练,前提视觉模型 DINOv2 在各种图象域中的各种任务(包括稳健的区域级婚配)中表现良好。尽管前提模型所产生婚配结果的粒度有限,但当专门的婚配器无法处理域位移时,这些模型可以为潜在的婚配区域提供可泛化的辅导。因此,他们应用 DINO 来辅导图象间特性传递过程,降低不相关的关键点并鼓励模型融合来自潜在可婚配区域的信息。
接着利用关键点地位信息来辅导信息传递过程。研究者发现,当模型应用于不同范围时,以往的地位编码策略会损害功能。这促使他们与用于估计对应关系的婚配描述符区分开来。研究者提出了一种新颖的关键点地位辅导注意力机制,从而避免过于专注关键点的训练分布和相对姿态变换。
通过实验,研究者评估了 OmniGlue 在各种视觉范围的泛化才能,包括合成图象和真实图象,从场景级到以对象为中心和空中数据集,期间应用小基线和宽基线相机。与以往工作相比,OmniGlue 展示出显著的矫正。
格式概览
下图 2 概述了 OmniGlue 格式,主要包括以下四个阶段。
首先,研究者应用两种互补类型的编码器提取图象特性,包括了专注于通用细粒度婚配的 SuperPoint 以及对粗略但广泛的视觉知识进行编码的视觉前提模型 DINOv2。
其次,研究者应用这些特性建立关键点关联图,包括图象内和图象间。
第三,研究者鉴于建立的图在两张图象中的关键点之间传递信息,分别应用自注意力层和交叉注意力层进行图象内和图象间通信。
最后,一旦获得矫正后的描述符,研究者应用最佳婚配层来生成两张图象中关键点之间的映射。
在具体细节上,OmniGlue 格式主要包含以下几步。
特性提取。输入是两张具有共享内容的图象,表示为 I_A 和 I_B。研究者将这两张图象的 SuperPoint 关键点集表示为 A := {A_1, …, A_N } 和 B := {B_1, …, B_M}。N 和 M 分别是 I_A 和 I_B 的已识别关键点的数量。每个关键点都与其 SuperPoint 全部描述符 d ∈ R^C 相关联。
利用 DINOv2 建立图形。研究者利用 DINOv2 特性来辅导图象间图形的建立。如下图 3(左)所示,他们以 G_B→A_i 为例。对于关键点集合 A 中的每个关键点 A_i,研究者计算其与集合 B 中所有关键点的 DINOv2 特性相似度。
具有新颖辅导的信息传递。研究者根据关键点图执行信息传递,这一模块包含了多个块,每个块都有两个注意力层。第一个鉴于图象内图更新关键点,执行自注意力;第二个鉴于图象间图更新关键点,执行交叉注意力。
婚配层和损失函数。应用矫正的关键点表示来生成成对相似度矩阵:
对比 SuperGlue 和 LightGlue
SuperGlue 和 LightGlue 都应用注意力层进行信息传递。不同的是,OmniGlue 利用前提模型来辅导这个过程,这对迁移到训练期间未观察到的图象域有很大帮助。
在全部描述符矫正方面,与 SuperGlue 不同,OmniGlue 解耦了地位和外观特性。作为参考,SuperGlue 将关键点表示为 d + p,将两个特性纠缠在一起,其中地位特性也用于产生婚配结果。
与 OmniGlue 的设计类似,LightGlue 消除了更新的描述符对地位特性的依赖,但提出了一种非常具体的地位编码公式,鉴于旋转编码,并且仅在自注意力层中。
总之,SuperGlue 是最接近 OmniGlue 的模型,可作为直接对比的参考。也因此,研究者应用 SuperGlue 作为实验验证的主要参考比较。
实验结果
研究者在下表 1 中列出了用于评估 OmniGlue 的数据集和任务。
从 Synthetic Homography(SH)到 MegaDepth(MD)数据集,如下表 2 所示,与前提格式 SuperGlue 相比,OmniGlue 不仅在范围内数据上表现出优异的功能,而且还表现出强大的泛化才能。
从 MegaDepth(MD)到其他范围,如下表 3 所示,OmniGlue 不仅在 MegaDepth-1500 上实现了与 SOTA 稀疏婚配器 LightGlue 相当的功能,而且与所有其他格式相比,在 6 个新范围中的 5 个范围中表现出更好的泛化才能。
研究者在下图 5 和图 4 中分别展示了新范围上的零样本泛化功能以及在源范围上的功能。
最后如下表 4 所示,OmniGlue 更容易适应目标范围。
更多技术细节和实验结果请参阅原论文。