本文经3D视觉之心公众号授权转载,转载请联系出处。
单目深度估计的关键局限和挑战
近年来,基于深度学习的单目深度估计(Monocular Depth Estimation, MDE)能够从单张二维图像中提取出日益准确的三维信息。这些进展为利用三维先验丰富传统几何计算机视觉任务开辟了新的可能性。从单张图像推断深度信息已被证明在多个应用中具有重要意义。
尽管单目深度估计技术取得了显著进步,但将这些深度先验整合到基础几何计算机视觉任务中(尤其是相机位姿估计)仍然较少被研究。虽然直觉上整合深度信息是有益的,但利用这些先验来推导多视图之间的几何关系存在独特的挑战,这些挑战尚未被现有研究完全解决。
现有方法的一个关键局限是通常假设不同视图预测的深度图可以通过一个单一的比例因子相关联。然而,这种假设未能考虑现有单目深度估计模型的内在特性,因为最先进的MDE模型通常通过预测相对深度或视差(逆深度)来实现仿射(比例和偏移)变换的不变性。尽管最近在度量深度估计模型开发方面取得了一些进展,但令人惊讶的是,即便对于这些模型,建模仿射校正也是有益的,因为它们与实际度量深度仍然存在一定的不一致性。
MADPose[1]提出了三个求解器,专注于在校准或非校准相机设置下解决相对位姿问题。这些求解器使用单目深度估计模型提供的深度先验和像素匹配作为输入,并显式建模深度预测中的比例和偏移变化。具体而言,我们提出的求解器包括以下几种(其中仅校准求解器是极小的,其他两个是过约束的):
- 校准的三点求解器:适用于校准图像对。
- 共享焦距的四点求解器:适用于未知但共享焦距的非校准图像对。
- 双焦距的四点求解器:适用于焦距未知的非校准图像对。
仓库链接:https://github.com/MarkYu98/madpose
此外,我们将这些新求解器整合到一个灵活的混合鲁棒估计流程中,该流程将深度感知求解器与经典的基于点的求解器相结合。我们还开发了混合方案用于评分和局部优化,在其中使用深度和仿射校正值优化经典的Sampson误差和基于深度的重投影误差。这种方法结合了两种方法的优势,最终形成了一个鲁棒的相对位姿估计算法,在多个数据集上都实现了持续改进。
主要贡献:
- 提出通过显式仿射(比例和偏移)校正单目深度预测解决相对位姿问题,解决了现有方法中的一个局限。
- 开发了三种针对不同校准设置的求解器:校准、共享焦距的非校准、以及完全非校准图像对。
- 将深度感知求解器与经典基于点的求解器、评分和局部优化相结合的混合估计流程,大幅提升了相对位姿估计的精度和鲁棒性。
- 框架兼容多种图像匹配器和MDE模型,表现出一致的改进,易于整合到现有管线中。
具体方法
问题定义
虽然这种建模假设深度先验是仿射不变的相对深度,但我们的方法也可以用于度量深度预测,从而在实验中表明可以提高相对位姿的准确性和鲁棒性。
方法
混合估计
仅依赖深度先验可能会在先验不可靠时产生错误结果。为此,我们进一步提出了一种混合方法,将深度感知求解器与经典基于点的求解器和极线误差结合起来(如 Sampson误差),形成一个混合的 LO-MSAC 框架。混合估计流程包括以下步骤:
- 校准场景:结合校准求解器和经典的五点本质矩阵求解器。
- 共享焦距场景:结合共享焦距求解器和六点共享焦距相对位姿求解器。
- 双焦距场景:结合双焦距求解器和七点基础矩阵求解器。
通过这种混合策略,我们能够结合深度先验和点对应两种方式的优势,从而在多个数据集上实现精度和鲁棒性的显著提升。
实验效果
总结一下
MADPose是一种新的相对位姿估计方法,利用显式建模的单目深度先验的仿射变化。在校准和非校准相机设置下开发了三个求解器,并将其与经典方法相结合,实现了跨多个数据集的持续改进。所提方法还能从图像匹配和单目深度估计的最新进展中进一步受益。