本文经自动驾驶之心公众号授权转载,转载请联系出处。
写在前面 && 笔者理解
传统的自动驾驶框架下,现有感知而后又规控,所以可以说感知在这套框架下扮演着非常基础性的工作。然而,动态交通参与者的突发性和可变性,加上静态对象的较大的范围和距离,给自动驾驶车辆在感知复杂驾驶场景时带来了不小的挑战。而在一众提高感知能力的方法中,场景语义补全(Scene Semantic Completion,SSC) 作为一种同时推理驾驶场景的几何形状和语义的技术脱颖而出。如图1所示,与传统的依赖于单个目标检测和跟踪的感知任务不同,SSC通过填补部分或遮挡传感器输入中缺失的信息,提供了对环境更全面的理解。当传感器如激光雷达或摄像头被其他车辆或环境元素遮挡时,这种能力尤其关键。
不过,收集和标注大规模真实世界数据集是一个昂贵且劳动密集型的过程,而且能够收集到多样的真实世界交通情况也是一件比较有挑战的事情,比如一些像是车辆故障 or 行人碰撞的等长尾场景。所以,越来越多的研究人员愿意转向高保真的模拟器,如:CARLA等,来生成一些数据,虽然这些合成的数据与真实世界的数据还是存在一些domain gap。
当前的SSC解决方案通常依赖于 3D CNNs 来编码点云或RGB-D图像等输入数据,这些数据包含了丰富的空间信息。然而,3D CNNs在捕获细粒度场景表示或建模3D块之间的长序列关系方面有些许挑战,而这两者恰恰对于SSC任务至关重要。缺乏时间建模限制了它们跟踪环境动态变化的能力。
- 论文链接:https://arxiv.org/pdf/2411.03672v1
作者这篇工作旨在解决两个关键gap:
- 需要有效利用模拟数据以快速部署在真实世界场景中
- 开发一种新的骨干网络,能够捕获长序列依赖关系和高分辨率空间信息。
所以,相应的,这篇工作的主要贡献主要总结如下:
- 双相训练与元学习 作者采用双相训练策略,通过模型无关的元学习(MAML),在源域(由模拟器生成的数据集)上预训练模型,并在目标域(真实世界数据集)上进行微调。这种方法通过在微调过程中快速学习特定于域的特征,加速了对真实世界环境的适应。通过跨多个域的泛化,MAML减少了过拟合并提高了模型在新情况下的鲁棒性。
- 用于长序列建模的新型骨干网络 作者引入了一种新的骨干架构,该架构集成了Mamba(一种选择性的状态空间模型(SSM)),可变形卷积和大核注意(DLKA)。Mamba提供了一种结构化机制,用于随时间处理序列数据,确保有效地捕获3D体素网格内的长距离依赖关系。可变形卷积允许模型动态调整接受域,增强了检测不同尺度物体的能力。同时,D-LKA增强了网络的注意力机制,专注于场景的关键区域,这提高了空间意识和决策能力。
相关工作
3D semantic scene completion for autonomous driving
SSC 任务就是从不完整的传感器输入中,推断大规模户外环境的几何形状和语义。它提供了对驾驶场景的完整理解,并预测缺失的元素,这对于自动驾驶至关重要。
Roldao 等人提出了 LMSCNet,这是一个多尺度网络,结合了 2D U-Net 主干和 3D 分割头。这种设计减少了全 3D 卷积的计算负担,同时保持了竞争性能。同样,Yan 等人引入了一个多任务学习框架,其中语义分割(SS)和 SSC 被联合训练。通过在两个任务之间共享特征,模型改进了几何和语义预测。这些方法使用单目 RGB 摄像头与 LiDAR 相比,可以降低部署成本。然而,在这种像素到点的转换过程中,可能会在 3D 空间的未占用区域引入虚假特征,降低模型性能。为了解决这些限制,最近的研究集中在改进像素到点的转换和提炼特征融合技术。一些方法将深度估计纳入 RGB 输入,而其他方法使用注意力机制来选择性增强相关特征。
Deformable large kernel attention
学习 SSC 任务中不同体素之间相关性的两种主要方法:
第一种方法使用大核和堆叠多层的 3D 卷积,使模型能够捕获 3D 空间中的长距离依赖。然而,随着层数的增加,计算成本呈指数增长,大量的参数需要更多的内存和训练时间。这些限制使其在实时应用中不切实际,尤其是在效率至关重要的自动驾驶场景中。
第二种方法使用自注意力机制,有选择地关注相关特征。自注意力在模拟远距离体素之间的关系方面提供了灵活性。然而,自注意力倾向于忽视场景的固有 3D 结构,将输入数据更多地视为展平的序列而不是结构化的空间信息。此外,自注意力不会动态适应通道维度的变化,限制了其在驾驶环境中表示复杂变换的能力。这些限制,加上基于注意力模型的计算开销,为在资源受限的系统中部署它们提出了挑战。
为了解决这些问题,研究人员探索了可变形卷积,它引入了额外的偏移量,允许网络自适应地重新采样空间特征。这种方法通过关注输入最相关的区域来增强模型处理几何变化的能力,在复杂场景中的鲁棒性得到了提高。
Mamba on 3D semantic scene completion
Mamba 的精简架构减少了通常与 Transformer 相关的计算开销,使其非常适合需要快速推理的应用。它采用了轻量级设计,用更简单的线性变换替换了多头自注意力机制,同时仍然捕获输入元素之间的基本关系。
Zhu 等人开发了一个基于 Mamba 的通用视觉主干,用于模拟图像块之间的关系,展示了 Mamba 在计算机视觉任务中的潜力。通过有效地编码图像区域之间的关系,Mamba 为视觉处理中基于 Transformer 的模型提供了实用的替代方案。此外,Mamba 在 3D 建模任务中可能更加有效,其中 3D 块的序列比 2D 图像块长得多,也复杂得多。这一洞见鼓励研究人员探索将 Mamba 能力扩展到 2D 应用之外的新方法。
方法论
之前的研究表明,在多任务学习框架中结合语义分割(SS)和场景语义补全(SSC)可以提升两项任务的性能,其中 SS 提供详细的语义特征,补充 SSC 捕获的几何理解,使得两个模块都能从共享的特征提取中受益。同时,一些方法通过使用历史 LiDAR 扫描作为辅助监督来增加语义标签的密度。尽管这些方法提高了模型捕获细粒度语义的能力,但依赖历史扫描增加了计算开销,使得这些解决方案难以在实时自动驾驶场景中部署。
作者的方法不同,将 SS 作为预训练任务来学习 SSC 的元知识。预训练步骤帮助模型更好地泛化于不同域,准备处理真实世界的复杂性,如遮挡和传感器噪声。为了进一步增强监督,作者从附近的 CAV 聚合语义信息,提供更密集的标签,扩展到更大的距离。这种从多辆车聚合的语义信息解决了单个传感器的局限性,后者通常受到数据稀疏和遮挡的限制。它允许模型更有效地推理不完整的区域,从而获得更全面的场景理解。
问题表述
双相训练策略
基于 MAML,作者提出的方法,MetaSSC的工作流程如图 3 所示,包括两个主要阶段:元预训练和适应。这些阶段使得 SSC-MDM 模型能够将知识从模拟环境转移到真实世界驾驶场景,提高 3D SSC 任务的性能。
元预训练阶段(图 3-部分 A)旨在通过从模拟数据中学习,为跨不同任务的泛化做准备。源数据集 OPV2V 和 V2XSIM 提供了一系列 V2V 和 V2X 场景,帮助模型为动态环境开发鲁棒特征。任务从这些数据集中采样,每个任务包括一个支持集和一个查询集。支持集用于内循环中优化任务特定的参数,而查询集评估模型的泛化性能。
具体元预训练的过程可以详见 Algorithm1:
在适应阶段(图 3-部分 B),元训练的 SSC MDM 模型被适应到目标真实世界数据集,SemanticKITTI。这个阶段微调元学习参数,使其与真实世界条件对齐,解决诸如传感器噪声、遮挡和环境变异性等挑战。允许模型以多种分辨率(1:1、1:2、1:4 和 1:8)生成输出,使其能够捕获驾驶环境的细节和大规模特征。
多尺度输出对于平衡局部精度和全局场景理解至关重要。例如,像行人这样的小物体在更细的尺度上被检测,而像道路和建筑物这样的大物体在更粗的分辨率上被识别。这种分层输出结构确保了模型即使在具有挑战性的真实世界场景中也能提供准确和全面的场景补全。
适应阶段利用元学习参数作为一个强大的起点,最小化了对广泛重新训练的需求。这种高效的迁移学习框架加速了 SSC-MDM 模型在真实世界设置中的部署,确保了高性能和最小的计算开销。适应阶段的过程被作者总结进 Algorithm2中:
D-LKA-M 架构
D-LKA-M 架构如图 4 所示,源自 D-LKA 网络,集成了 Mamba 块,有效地处理 3D 块的长序列建模。该设计遵循与 LMSCNet 类似的层次结构,类似于 U-Net 架构。层次结构使模型能够进行多尺度处理,允许模型捕获来自 3D 场景的细粒度细节和更广泛的上下文信息。
模型通过一系列 3D 模块处理输入数据,不同阶段进行下采样和上采样操作。每个下采样层减少空间维度,压缩输入同时保留关键信息,每个上采样层重建更高分辨率的输出。这种结构使其能够以多种降低的分辨率输出结果。这在 SSC 任务中特别有用,因为它在多个尺度上提供预测,提高了 SSC 的准确性。
在输入阶段使用 Patch 嵌入模块将原始 3D 数据划分为可管理的部分。嵌入在 D-LKA 模块中的 Mamba 块增强了网络对 3D 体素网格长距离依赖关系的建模能力,这对于理解复杂驾驶环境至关重要。这种集成确保了模型在计算效率和准确性之间取得平衡,使其适合实时应用。
可变形卷积
可变形卷积引入了一个偏移场来自适应调整卷积核,这在自动驾驶中特别重要,因为行人、车辆和障碍物等对象通常不符合固定形状或位置。传统的固定核卷积难以有效捕获这种不规则性,限制了模型准确感知复杂驾驶环境的能力。可变形卷积通过动态修改每个输入位置的感受野来解决这个问题。该机制可以总结如下:
总之,可变形卷积为自动驾驶提供了显著优势,通过提高模型对复杂场景的理解能力,这对于构建在真实世界环境中安全可靠的自动驾驶系统至关重要。
大核注意力
总之,LKA 与可变形卷积的集成构成了作者提出模型的主干。这个模块在使模型在自动驾驶场景中有效执行中起着至关重要的作用,其中局部细节和大规模上下文都是必需的。
Mamba
与 Vision Mamba不同,作者的方法直接处理来自 D-LKA 块的特征,并与 Mamba 块一起处理,以增强 3D 体素网格的长序列建模。这种直接集成使作者的模型能够有效地捕获来自 D-LKA 的局部特征和通过 Mamba 块的长距离依赖关系,从而实现更强大的自动驾驶场景理解。这个过程的数学公式表示为:
总而言之,D-LKA 和 Mamba 模块的集成使模型能够有效地执行局部和长序列建模,同时还能确保局部细节和全局背景之间的平衡,从而做出准确的决策。
实验及结论
作者在 SemanticKITTI上进行了实验,将数据分割为训练、验证和测试集,确保与以前研究的一致性。
与Baseline模型的比较
如表 1 所总结。所提出的 SSC-MDM 模型在场景补全的交并比(IoU)中排名第一,在精确度中排名第二。它还在 SSC 的平均交并比(mIoU)中排名第二,表明其在场景补全和语义场景补全任务中的优越性能。
然而,SSC-MDM 的召回率低于 TS3D,这可以归因于 TS3D 使用额外的 RGB 输入。这一差异突出了 RGB 辅助性能与像 SSC-MDM 这样的纯 LiDAR 模型之间的权衡。作者的方法在常见类别如道路和建筑中特别出色,超过了其他模型。然而,对于出现频率较低的类别,其性能相当或略低,这突显了解决数据集中类别不平衡问题的必要性。
消融分析
该分析旨在通过比较不同的变体架构,隔离和评估所提出模型的关键组件的影响。这四个变体模型,称为 Multi-scaled、D-LKA、Transfer 和 Mamba,描述如下:
- Multi-scaled:LMSCNet 作为作者分析的基础模型。这是一个轻量级模型,它在多个分辨率上学习特征,利用多尺度连接捕获细粒度和广泛的上下文信息。作者从这个模型开始逐步改进,以测试不同组件对最终性能的贡献。
- D-LKA:在这个变体中,作者用可变形大核注意力网络替换了 LMSCNet 主干,以增强特征提取。这一修改旨在提高网络更准确预测复杂 3D 场景的能力。
- Transfer:这个变体采用了前面讨论的双相训练策略,以提高模型性能并减少训练时间。通过在源数据集上预训练并在目标数据集上微调,”Transfer” 利用来自模拟域的知识来增强真实世界性能,确保更快的收敛和改进的泛化能力。
- Mamba:在这个最终变体中,作者将 Mamba 块集成到 D-LKA 网络中,以处理 3D 块的长序列建模。Mamba 的优势在于其能够有效地处理序列依赖性,这进一步增强了模型对 3D 空间结构的理解,以实现 SSC。
消融分析的结果总结在表 2 中。随着作者从 “Multi-scaled” 进展到 “Mamba”,所有指标的性能要么提高要么保持一致,引入 DLKA 时召回率的下降除外。D-LKA 阶段召回率的下降可以归因于模型复杂性和泛化能力之间的权衡,因为 DLKA 专注于学习更丰富的特征,但可能需要更多的数据以获得最佳的召回率。总体而言,结果证实了作者工作中使用的技术对 SSC 通常是有益的,显示出在各种性能指标上的一致改进。
此外,作者在图 6 中可视化了四个模型在 SemanticKITTI 验证数据集上的 mIoU 训练周期。”Multi-scaled” 和 “D-LKA” 变体直接在目标数据集上训练,而 “Transfer” 和 “Mamba” 变体在源数据集上预训练并在目标数据集上微调。值得注意的是,在微调过程中,仅在第一周期微调输出层以稳定早期训练。可视化清楚地表明,双相训练策略加速了收敛,并在较少的训练周期内获得了更好的性能。这突出了转移预训练知识并在较小的目标数据集上微调以有效实现理想结果的有效性。
结论
本研究提出了一个基于元学习的框架,用于解决自动驾驶中的场景语义补全(SSC)任务,重点关注从模拟环境到真实世界应用的知识转移。通过利用从模拟环境中获取的元知识,框架减少了对大规模真实世界数据的依赖,显著降低了部署成本并缩短了开发周期。本框架的关键创新在于其集成了大核注意力(LKA)机制和 Mamba 块到主干模型中。这些组件使模型能够有效地从 3D 体素网格提供的稀疏和不规则数据中提取多尺度、长序列关系。LKA 机制允许模型通过扩大感受野来捕获局部细节和全局上下文,而不增加计算复杂性。同时,Mamba 块提高了模型处理 3D 块序列依赖性的能力,通过捕获驾驶场景中的时间空间关系来增强 SSC 任务。
总之,元学习、先进的注意力机制和双相训练的结合为自动驾驶中的 SSC 提供了一种可扩展且鲁棒的解决方案。所提出的框架不仅提高了模型处理复杂和动态驾驶环境的能力,还降低了部署成本。这些结果为 SSC 的未来进步铺平了道路,并为构建更安全、更可靠的自动驾驶系统提供了宝贵的见解。