论文信息
论⽂全称:LoD-Loc: Aerial Visual Localization using LoD 3D Map with Neural Wireframe Alignment
录⽤会议:NeurIPS 2024
论⽂地址:https://arxiv.org/abs/2410.12269
代码地址:https://github.com/VictorZoo/LoD-Loc
TL;DR: 基于三维城市⽩模地图(LoD 3D Map) 的⼀种使⽤神经线框对⻬进⾏空中视觉定位的新⽅法
论⽂概要:LoD-Loc 基于城市⽩模模型Level of Detail 3D Map (LoD 3D Map)提出⼀种城市⽆⼈机空中定位新范式。 区别于基于SfM / SLAM / Mesh等复杂三维地图的传统定位⽅法 ,LoD 三维地图具有储存容量低 ,能提供隐私保护等优点。然⽽ , 由于 LoD 地图缺乏纹理,使⽤之前传统定位基线进⾏ LoD 地图空中定位并不简单。 因此 ,本⽂提出了⼀种可以处理此类任务的定位新⽅法 ,即基于从图像中估计线框概率进⾏姿态搜索与细化定位 ,也可以理解为通过将 LoD 模型投影得出的线框与神经⽹络预测的线框对⻬来实现定位⽬标。具体⽽⾔ ,给定⽆⼈机传感器提供的粗略姿 势 ,LoD-Loc 分层构建均匀采样姿势假设的成本体积来描述姿势概率分布并选择具有最⼤概率的姿势。 该体积内的每个成本测量投影和预测线框之间的线对⻬程度。LoD-Loc 还设计了⼀种 6-DoF 姿势优化算法 ,以可微分⾼斯⽜顿法改进先前的结果。 由于该研究领域没有公开数据集,论⽂收集了两个地图级 别为 LoD3.0 和 LoD2.0 的数据集 ,包括RGB 查询图像及其真实姿势标注。实验表明,所提出的⽅法可以⼤⼤优于现有的基于 CAD 的定位⽅法 ,同时与使⽤纹理⽹格和局部特征描述符的传统⽅法相⽐具有竞争⼒。
论⽂贡献:
1. ⾸次提出利⽤LoD 3D Map进⾏空中六⾃由度定位;
2. 使⽤线框对⻬思路 ,提出⼀种仅以Pose为监督的端到端可微的定位⽅法;
3. 开源两组城市⽩模定位数据集:UAVD4L-LoD和Swiss-EPFL
摘要
本⽂提出了⼀种名为 LoD-Loc 的⽤于空中视觉定位新⽅法 ,输⼊是城市三维白模地图和⼀张图像及其先 验信息 ,输出图像对应的相机位姿。本⽂⽅法基于对⻬线框LoD模型投影得到的显式线框与神经⽹络预测的神经线框特征对⻬ ,将相机定位问题转换成度量学习。LoD-Loc端到端地学习了从三维线框到位姿的数据先验,这种能⼒能够在城市⽩模场景下的定位任务中表现优异。本⽂算法能够在给定粗略姿先验的情况下定位 ,且性能与使⽤纹理⽹格模型的传统⽅法相⽐具有竞争⼒。
原有问题
现有的地⾯或空中视觉定位⽅法主要依赖于在查询图像中的像素点与预先构建的⾼质量三维地图中的点 进⾏匹配。然⽽ ,使⽤诸如倾斜摄影等技术构建⾼精度的全球范围三维地图,成本极为⾼昂,且难以在 ⽇常使⽤中进⾏及时的维护和更新。此外 ,这类三维地图需要占⽤⼤量的存储空间,尤其是在⽆⼈机等 终端设备上的部署⾯临着显著的挑战。更为重要的是 ,⾼分辨率的三维地图暴露了定位区域的详细信息 ,这带来了关于国家安全和隐私保护的潜在问题。
创新方案
为了解决上述难题 ,本⽂⾸次提出采⽤ LoD(Levels of Detail) 三维地图作为引导进⾏空中六⾃由度视 觉定位。与传统的三维纹理⽹格模型相⽐ ,LoD 3D 模型具有以下显著优势:
1. 获取与维护的简化 :得益于遥感技术的⻜速发展 ,全球范围的 LoD 城市模型⽣成变得更加便捷。
Google Maps 和百度地图等商业平台已经将这些 LoD 3D 模型融⼊其地图系统中,使得⼤规模城市 模型的构建和⽇常维护较传统⽅法更为⾼效便捷。
2. 地图数据的轻量化 :相⽐传统的三维纹理⽹格模型 ,LoD 地图的尺⼨极为紧凑 ,其数据⼤⼩可以缩 减⾄纹理三维地图的1/10,000 ,⼤幅降低存储要求。这样轻量化的地图数据可以轻松部署在⽆⼈机等设备上 ,提升在⼴域环境下的定位效率。
3. 隐私保护 :LoD 城市模型只展⽰了建筑物的基本三维轮廓 ,使⽤简化的⽅式表现环境。这种抽象化 处理不仅减少了隐私泄露的⻛险 ,还符合许多国家对地理信息保密的规定,特别适⽤于敏感区域的 应⽤场景。
通过采⽤ LoD 三维地图 ,本研究为空中定位提供了⼀种更具实⽤性与⾼效性的解决⽅案,克服了传统三维地图在成本、存储与隐私⽅⾯的限制。
关键技术点
总览 :利⽤已知的LoD模型将三维线框与提取到的查询图像神经线框直接对⻬对位姿进⾏结算,其中对⻬过程中使⽤了姿态搜索和⽜顿迭代优化法。
输入 :3D LoD map ,查询图像 I 及其传感器先验
输出 :查询图像对应的相机6-DoF位姿 ξ∗
4.1 多层级特征提取器
对于输⼊的查询图像 I ,LoD-Loc使⽤标准的U-Net卷积神经⽹络来提取多层级特征
4.2 从成本体中进行姿态选择
4.3 姿态优化阶段
4.4 监督项
5. 实验
作者使⽤两块 NVIDIA RTX 4090 GPUs计算设备进⾏相应的实验 ,代码框架为Pytorch.
5.1 数据集
LoD-Loc提出两类数据集 ,分别为UAVD4L-LoD和Swiss-EPFL。UAVD4L-LoD为作者⾃⼰收集的数据 集 ,涵盖2.5平⽅千⽶的LoD3.0地图 ,并包括两个序列图像数据inTraj.和outTraj.及其姿态标注。
Swiss-EPFL则为公开开源的瑞⼠数据集 ,涵盖8.8平⽅千⽶的LoD2.0地图 ,并包含两个序列图像数据 inPlace和outPlace及其姿态RTK真值。具体详情请⻅官⽅主⻚。
5.2 量化比较
⽂中对⽐了LoD-Loc算法和Baseline的⽐较 ,通过结果能看出在UAVD4-LoD数据集上,算法表现出了强 有⼒的竞争性 ,定位精度甚⾄能超越基于信息丰富的纹理⽹格模型算法。⽽在Swiss-EPFL数据集中,
结果会稍逊⼀筹 ,作者给出的原因是LoD2.0信息会⽐LoD3.0的信息更少 ,从⽽导致推理的时候难度更 ⼤ 。作者认为 ,这⼀结果启发他了下⼀阶段研究⽬标与⽅向。
5.3 消融实验
通过对⽐不同阶段的量化和可视化结果 ,LoD-Loc模型展⽰了其⼦模块的有效性。更多实验结果可以从论⽂的补充材料中找到。