用前提模型辅导特性传递，首个泛化型图象婚配器OmniGlue搞定未见过域

第一个以「泛化」才能为核心设计原则的可学习图象婚配器来了！对于想要获取两张图象之间的细粒度视觉对应关系而言，全部图象特性婚配技术是高不错的 xuanz，对于实现准确的相机姿态估计和 3D 重建至关重要。过去十年见证了从手工制作到鉴于学习的图象特性的演变。最近，研究社区又提出了新颖的可学习图象婚配器，在传统基准上实现了功能的不断矫正。尽管已经取得了长足的进步，但这些进展忽略了一个重要方面：图象婚配模型的泛化才能。如今，大多数全部特性婚配研究都集中在具有丰富训练数据的特定视觉范围（如室外和室内场景），这就导致了模型高度

第一个以「泛化」才能为核心设计原则的可学习图象婚配器来了！

对于想要获取两张图象之间的细粒度视觉对应关系而言，全部图象特性婚配技术是高不错的 xuanz，对于实现准确的相机姿态估计和 3D 重建至关重要。过去十年见证了从手工制作到鉴于学习的图象特性的演变。

最近，研究社区又提出了新颖的可学习图象婚配器，在传统基准上实现了功能的不断矫正。尽管已经取得了长足的进步，但这些进展忽略了一个重要方面：图象婚配模型的泛化才能。

如今，大多数全部特性婚配研究都集中在具有丰富训练数据的特定视觉范围（如室外和室内场景），这就导致了模型高度专用于训练范围。遗憾的是，这些格式的功能在域外数据（如以对象为中心或空中捕获）上通常急剧下降，在某些情况下甚至可能并不比传统格式好很多。

因此，传统的域无关技术（如 SIFT）仍被广泛用于获取下游应用的姿态。并且由于收集高质量注释的成本很高，在每个图象域都有丰富的训练数据是不现实的，就像其他一些视觉任务一样。因此，社区应该专注于开发架构矫正，使得可学习的婚配格式具有泛化才能。

近日，受上述观察的启发，德克萨斯大学奥斯汀分校和谷歌研究院的研究者联合提出了 OmniGlue，这是第一个以泛化为核心原则设计的可学习图象婚配器。在与域无关的全部特性前提上，他们引入了用于提高婚配层泛化功能的新技术：前提模型辅导和关键点地位注意力辅导。

用前提模型辅导特性传递，首个泛化型图象婚配器OmniGlue搞定未见过域

论文地址：https://arxiv.org/pdf/2405.12979

项目主页：https://hwjiang1510.github.io/OmniGlue/

如图 1 所示，通过引入的技术，OmniGlue 能够在分布外范围上实现更好泛化功能，同时保持源范围上的高质功能。

用前提模型辅导特性传递，首个泛化型图象婚配器OmniGlue搞定未见过域

研究者首先整合了前提模型的广泛视觉知识。通过对大规模数据进行训练，前提视觉模型 DINOv2 在各种图象域中的各种任务（包括稳健的区域级婚配）中表现良好。尽管前提模型所产生婚配结果的粒度有限，但当专门的婚配器无法处理域位移时，这些模型可以为潜在的婚配区域提供可泛化的辅导。因此，他们应用 DINO 来辅导图象间特性传递过程，降低不相关的关键点并鼓励模型融合来自潜在可婚配区域的信息。

接着利用关键点地位信息来辅导信息传递过程。研究者发现，当模型应用于不同范围时，以往的地位编码策略会损害功能。这促使他们与用于估计对应关系的婚配描述符区分开来。研究者提出了一种新颖的关键点地位辅导注意力机制，从而避免过于专注关键点的训练分布和相对姿态变换。

通过实验，研究者评估了 OmniGlue 在各种视觉范围的泛化才能，包括合成图象和真实图象，从场景级到以对象为中心和空中数据集，期间应用小基线和宽基线相机。与以往工作相比，OmniGlue 展示出显著的矫正。

格式概览

下图 2 概述了 OmniGlue 格式，主要包括以下四个阶段。

首先，研究者应用两种互补类型的编码器提取图象特性，包括了专注于通用细粒度婚配的 SuperPoint 以及对粗略但广泛的视觉知识进行编码的视觉前提模型 DINOv2。

其次，研究者应用这些特性建立关键点关联图，包括图象内和图象间。

第三，研究者鉴于建立的图在两张图象中的关键点之间传递信息，分别应用自注意力层和交叉注意力层进行图象内和图象间通信。

最后，一旦获得矫正后的描述符，研究者应用最佳婚配层来生成两张图象中关键点之间的映射。

用前提模型辅导特性传递，首个泛化型图象婚配器OmniGlue搞定未见过域

在具体细节上，OmniGlue 格式主要包含以下几步。

特性提取。输入是两张具有共享内容的图象，表示为 I_A 和 I_B。研究者将这两张图象的 SuperPoint 关键点集表示为 A := {A_1, …, A_N } 和 B := {B_1, …, B_M}。N 和 M 分别是 I_A 和 I_B 的已识别关键点的数量。每个关键点都与其 SuperPoint 全部描述符 d ∈ R^C 相关联。

利用 DINOv2 建立图形。研究者利用 DINOv2 特性来辅导图象间图形的建立。如下图 3（左）所示，他们以 G_B→A_i 为例。对于关键点集合 A 中的每个关键点 A_i，研究者计算其与集合 B 中所有关键点的 DINOv2 特性相似度。

用前提模型辅导特性传递，首个泛化型图象婚配器OmniGlue搞定未见过域