本文的主要作者来自上海交通大学智能机器人与机器视觉(IRMV)实验室。本文第一作者是实验室硕士生刘久铭,主要研究方向为点云配准,雷达里程计,多模态融合,nerf/3DGS 渲染,3D生成等。曾在CVPR,ICCV,ECCV,AAAI等会议发表论文多篇。
本文通讯作者及指导教师为王贺升教授,教授团队近年来在计算机视觉与机器人权威期刊(TPAMI,TRO)与国际顶级学术会议(CVPR,ICCV,ECCV,AAAI,ICRA,IROS)上发表多篇机器人移动定位导航相关论文,与国内外知名高校,科研机构展开广泛合作。
视觉 / 激光雷达里程计是计算机视觉和机器人学领域中的一项基本任务,用于估计两幅连续图像或点云之间的相对位姿变换。它被广泛应用于自动驾驶、SLAM、控制导航等领域。最近,多模态里程计越来越受到关注,因为它可以利用不同模态的互补信息,并对非对称传感器退化具有很强的鲁棒性。
以往基于学习的方法大多采用图 1 a) 所示的特征级融合策略,无法捕捉细粒度像素到点的对应关系。最近,一些网络设计了点到图像的投影和局部特征聚合,如图 1 b) 所示,但其性能仍然受到稀疏激光雷达点和密集相机像素之间内在数据结构错位的限制。
为了解决这些问题,来自上海交通大学、加州伯克利大学的研究团队提出了一种具有双向结构对齐功能的新型局部到全局融合网络 (DVLO)。
论文链接:https://arxiv.org/pdf/2403.18274
代码仓库:https://github.com/IRMVLab/DVLO
DVLO 的融合模块由两部分组成:1)首先将图像视为一组伪点,与激光雷达点进行细粒度局部融合(图像到点的结构对齐)。2) 点云也通过圆柱投影转换为伪图像,用于全局自适应融合(点到图像结构对齐)。
图 1:图像和点云的不同融合策略。之前的大多数研究都只进行全局融合或局部融合。DVLO 设计了一种局部到全局的融合策略,既能促进全局信息的交互,又能保留局部的细粒度信息。此外,还设计了双向结构对齐,以最大限度地提高模态间的互补性。
总体而言,该论文的贡献如下:
1. 提出了一种具有双向结构对齐功能的局部到全局融合里程测量网络。论文作者将图像像素视为一组伪点进行聚类,以便与激光雷达点进行局部融合。点云也通过圆柱投影转换为伪图像,用于全局自适应融合。
2. 设计了一个纯粹基于聚类的融合模块,以获得细粒度的局部融合特征。论文中提出的方法是首次基于深度聚类的多模态融合尝试,是 CNN 和 Transformer 之外的另一种高效融合策略。
在 KITTI 里程计数据集上进行的大量实验表明,DVLO 的方法在大多数序列上都优于最近所有的深度激光雷达、视觉和视觉激光雷达融合里程计方法。此外,DVLO 的融合策略还能很好地应用于其他多模态任务,如场景流估计,甚至超过了最近的 SOTA 方法 CamLiRAFT。
图 2:DVLO 流程图。
方法
总体结构
DVLO 的总体结构如图 2 所示。给定两个点云,及其对应的来自一对连续帧的单目相机图像,里程计目标是估计两个帧之间的相对位姿,包括旋转四元数和平移向量。
图 3:研究团队设计的局部到全局(LoGo)融合模块。
层次特征提取
点特征提取
由于原始点云的不规则性和稀疏性,首先将其投影到一个圆柱面 [30, 54] 上,以有序地组织点。其对应的二维位置为:
其中,x、y、z 是点云的原始三维坐标,u、v 是投影伪图像上相应的二维像素位置。∆θ 和 ∆ϕ 分别是激光雷达传感器的水平和垂直分辨率。
图像特征提取
给定摄像机图像,利用 [17] 中基于卷积的特征金字塔提取图像特征。其中,、 是特征图的高度和宽度。C 是图像特征的通道数。
局部融合器模块
从图像到伪点
给定图像特征 后,首先将其重塑为伪点集合,其中为伪点个数。在这种情况下,图像具有与激光雷达点相同的数据结构,这有利于建立局部像素与点的对应关系,并进一步进行基于聚类的特征聚合。
伪点聚类
首先将激光雷达点投影到图像平面上,得到其在图像坐标系中对应的二维坐标 x′ 和 y′,作为聚类中心。根据 x′、y′ 对 进行双线性插值,计算出中心特。
然后,根据中心特征和伪点特征 的成对余弦相似度,将所有伪点划分为若干个聚类。在此,将每个伪点分配到最相似的聚类中心,从而得到 N 个聚类。为了提高效率,按照 Swin Transformer,在计算相似度时使用区域分割。
局部特征聚合
论文作者根据与聚类中心的相似度动态聚合同一聚类内的所有伪点特征。给定聚类包含第 i 个聚类中心以及周围的 k 个伪点,本地融合特征的计算公式为:
全局融合模块
由于局部特征融合仅在划分的区域内进行,因此上述局部融合模块的感受野有限。为了扩大感受野以进行充分的特征融合,论文作者在局部融合特征和点(伪图像)特征之间引入了全局自适应融合机制。
从点到伪图像
通过前文中的圆柱投影将稀疏的激光雷达点转换为结构化的伪图像。在这种情况下,点特征 的大小为。这一过程将原本稀疏的非结构化点重组为密集的结构化伪图像,从而实现了下面的密集特征图与图像特征的融合。
自适应融合
给定局部融合特征 和点特征,按以下方式进行自适应全局融合:
其中, 和是点(伪图像)特征和局部融合特征的自适应权重,由 sigmoid 函数和 MLP 层获得。⊙表示元素与元素之间的乘积。然后,将全局融合特征重塑为 N ×D 的大小,作为迭代姿态估计的输入。
位姿迭代估计
通过将最粗糙层中两个帧的全局融合特征和联系起来,利用代价卷生成粗嵌入特征。嵌入特征包含两个连续帧之间的相关信息。
然后,利用嵌入特征 E 上的加权嵌入掩码 M 来回归位姿变换。加权嵌入掩码 M 的计算公式为 :
其中,是可学习的掩码。是源帧中的全局融合特征。然后,通过对嵌入特征和 FC 层加权,生成四元数和平移向量:
在初始估计 q 和 t 之后,通过 PWCLO 中的迭代细化模块对它们进行细化,从而得到最终姿势。第 l 层的细化四元数和平移矢量的计算公式为:
其中,姿态残差和可根据论文中的公式在最粗糙层中通过类似过程获得。
损失函数
四个层的网络输出 和 将用于计算监督损失。第 l 层的训练损失函数为:
其中,tgt 和 qgt 分别是地面真实平移和四元数。和是可学习的标量,用于缩放损失。和 分别是 L1 和 L2 准则。那么,总训练损失为
其中,L 是层的总数(设为 4),是代表第 l 层权重的超参数。
实验部分
表 1:在 KITTI 里程计数据集上与不同里程计网络的比较
表 2:在 KITTI 00-10 序列上与传统视觉 – 激光雷达里程计的比较。
表 3:在 KITTI 09-10 序列上与基于学习的多模态里程计的比较。
表 4:不同多模态里程计在 KITTI 里程计数据集序列 07-10 上的平均推理时间。
图 4:论文作者估计的位姿轨迹。
图 5:LOAM 和 DVLO 在真实的 KITTI 序列 07 上的轨迹结果。
图 6:设计的基于局部聚类的融合机制在某个聚类内的可视化效果。红点表示聚类中心的二维位置。黄色区域是每个中心周围的聚类像素。
表 5:泛化到场景流估计任务
图 7:估计场景流的可视化。
消融实验
表 6:局部 – 全局融合网络中局部融合器(LoF)和全局融合器(GoF)的有效性
表 7:不同局部融合策略的消融研究
更多研究细节,可参考原论文。