写在前面 & 笔者的个人理解
开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别,而无需人工标注。这对于真实世界的应用,如自动驾驶和虚拟现实等至关重要。传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战,尤其3D语义标注,非常耗费人力和物力。大量的互联网文本-视觉对数据,使得2D视觉语言模型展现出了杰出的2D开集世界理解能力。同样道理,为了理解3D开放世界,当前的SOTA方法通过构建点云-文本对数据,再通过CLIP的对比学习方式,达到3D开放世界理解能力。这种方式不仅要求繁琐的点云-文本对数据制作过程,而且要求大量的点云文本对齐数据。在实际互联网世界中,大量的3D点云数据难以获得且是有限的,因而限制了大量点云-文本对数据的制作,进而限制了方法的性能上限。
仔细观察可以发现,尽管3D点云数据有限,它们通常与图像成对出现。这就使得我们仔细思考:是否可以利用2D开放世界理解方法的成功,借助图像作为媒介,在有限的数据中,将2D开放世界理解的能力转移到3D开放世界理解当中。因此,我们设计了一个点云-图像-文本统一的多模态学习框架,在数据有限的情况下,将图像-文本的对齐关系迁移到点云-文本,得到3D开集场景理解模型。这个框架不需要生产点云-文本对,仅通过2D基础模型得到区域像素-文本对,即可通过多模态统一训练得到3D开集场景理解模型。同时,推理时不需要依赖图像即可得到点云的语义信息。在广泛使用的nuScenes、Waymo以及SeamanticKITTI数据集上进行的多个实验验证了多模态框架在3D开集任务上的有效性。
- 论文链接:https://arxiv.org/abs/2412.18131
本文提出了一个多模态开集框架UniPLV,将点云、图像和文本统一到一个范式中,以实现开放世界的3D场景理解。UniPLV利用图像模态作为桥梁,将3D点云与预对齐的图像和文本共同嵌入到一个共享的特征空间中,不需要制作对齐的点云和文本数据。为了实现多模态对齐,我们提出了两个关键策略:(i) 图像和点云分支的逻辑和特征蒸馏模块;(ii) 一个视觉点云匹配模块,用于显式纠正由点云到像素投影引起的错位。此外,为进一步提升我们统一框架的性能,我们采用了四种特定任务的损失函数和一个两阶段的训练策略。大量实验表明,我们的方法在两个开集任务Base-Annotated和Annotation-Free上的指标平均分别超过最先进方法15.6%和14.8%。
相关工作回顾
3D语义分割。3D语义分割技术可根据对点云的建模方式分为三类:view-based、point-based和voxel-based。view-based将3D点云转换为距离视图或鸟瞰视图,提取2D特征,但会损失3D几何特性。point-based直接使用3维点作为模型输入,并设计算法聚合上下文信息。Voxel-based将点云空间划分为多个体素网格,并使用稀疏卷积技术处理这些体素特征以提高效率。本文采用MinkUNet、SparseUnet32和PTv3作为骨干网络,分别验证提出框架的可扩展性和泛化能力。
开放词汇2D场景理解。开放词汇的2D场景理解技术随着大型视觉语言模型的发展,在理解二维开放世界场景的能力上取得了显著进展。主要有两大方向:基于CLIP的方法和Grounding方法。基于CLIP的方法通常使用CLIP文本特征代替线性投影特征,并利用对比学习进行特征对齐,如GLEE、DetCLIP系列、RegionCLIP和OWL-ViT等。Grounding任务的输入是一张图片和对应的描述,通过不同的描述在图像中输出物体框的位置。鉴于2D开放世界理解的成功,我们选择GLEE和Grounding DINO作为我们的2D开集区域标签生成算法。
开放词汇3D场景理解。开放词汇的3D场景理解旨在识别未被标注的物体。早期的方法主要通过特征区分或生成的方法实现开放场景的理解。随着视觉语言模型(如CLIP)的成功,出现了许多工作将视觉语言知识迁移到3D场景理解上。Clip2Scene使用冻结的CLIP获取图像的语义标签,然后投影以指导点云的语义分割。OpenMask3D采用3D实例分割网络创建3D掩码,并投影以获得2D掩码。这些2D掩码输入到CLIP中,以提取视觉特征并与文本特征匹配,最终获得3D语义。由于CLIP是基于完整图像和文本的对齐进行训练的,其理解特定区域的能力有限。OpenScene通过将预测结果从冻结的2D视觉模型投影并在图像与点云特征之间进行蒸馏,实现了点云与文本对齐。然而,OpenScene需要资源密集的特征提取与融合,并且在训练期间图像骨干是固定的,难以扩展到更先进的3D网络和3D场景。RegionPLC和PLA通过构建大量的点云文本对来训练点云与文本的对齐,实现了开放场景的3D理解。本文提出了一个统一的多模态框架,用于开放场景3D理解,具有轻量级和可扩展的特点,并且不需要生成额外的点云文本对。
UniPLV 方法详解
UniPLV能够识别无人工标注的新类别,同时保持对已标注的基础类别的性能。与之前通过构建3D点-文本对来实现开放词汇理解的方法不同,我们的工作利用2D基础模型构建图像区域语义标签,将开集能力从二维迁移到三维,而无需额外的3D和文本配对数据。利用二维和三维空间之间的映射关系以及预先对齐的图像和文本,我们设计了一个多模态统一训练框架,使用图像作为桥梁,将点云特征嵌入到图像和文本的共享特征空间中。我们介绍了所提框架的主要组件、数据流转换、两个知识蒸馏模块以及一个视觉点匹配模块。我们引入了一种多模态和多任务的训练策略,以确保点云和图像分支的稳定和高效训练。在推理阶段,此框架仅需要点云和类别描述作为输入来计算特征相似性,选择最相似的类别作为每个点的语义预测。
区域文本生成
我们利用二维视觉-语言基础模型提取图像实例和像素语义。具体来说,给定一组图像和类别文本列表,为每张图像输出边界框、实例掩码和语义类别。我们使用GLEE进行实例掩码和边界框生成,该模型已在大规模数据集上训练,在准确性和泛化性方面表现出色。另外,我们结合了 Grounding DINO 和 SAM2 ,以生成另一组实例标签。边界框通过 Grounding DINO 生成,随后使用 SAM2 对每个框进一步分割以产生实例掩码。至此,我们获得了区域-像素-文本对,以及与图像时空对齐的点云,用于训练提出的多模态3D场景理解网络。本文的实验结果中,2D 语义标签来自 GLEE,相关的 Grounding DINO 和 SAM2 实验可以在补充材料中找到。
模型框架
所提出的UniPLV包括一个冻结的文本编码器、图像编码-解码器和点云分割网络,如图2所示。我们将所有类别名称作为文本prompt输入到文本编码器中,在序列维度上应用全局平均池化来获取文本特征。为了支持开放世界理解,我们用感知特征与文本特征之间的相似性测量替换了图像解码器和3D分割头的分类器:
UniPLV可以利用构建的区域图像-文本对微调图像的分割和检测,并提供对应于给定类别的点云分割结果。该框架的最终优化目标是通过多模态联合训练将点云特征和图像-文本特征嵌入到统一的特征空间中,实现点云和文本在开放世界3D场景理解中的对齐。对于图像和文本分支,我们加载GLEE的第二阶段模型作为预训练权重,以加强文本和图像的对齐。在训练过程中,我们使用二维基础模型构建的数据微调图像模型,在迭代训练过程中,模型进行特征聚类,以识别并学习给定类别的共同属性。这种机制有助于滤除由误检引入的噪声,从而有效清洗伪标签。
视觉-点云知识蒸馏
为了将图像作为桥梁,将点云特征和预对齐的图像-文本对共同嵌入到统一的特征空间,我们从图像分支到点云分支引入了两个蒸馏模块:逻辑蒸馏和特征蒸馏。
逻辑蒸馏。 图像像素的语义分类概率是通过图像特征与所有给定类别的文本特征之间的相似性测量获得的。类似地,点云的语义分类概率也通过计算与文本的相似性获得。我们设计了逻辑蒸馏来监督新类别的点云分类,新类别语义由图像分支预测并经过投影得到,使用了交叉熵损失和Dice损失来实现逻辑蒸馏:
特征蒸馏。 图像和文本之间的对齐已经使用大规模数据进行预训练。为了弥合点云与语义文本之间的特征差距,我们进一步使用图像特征蒸馏点云的特征。我们仅蒸馏在空间映射和语义上同时对齐的2D-3D配对点。特征蒸馏基于相似性计算进行,使用余弦相似度函数在特定配对的点云和图像之间测量特征相似度:
视觉-点云匹配学习
我们引入了视觉-点云匹配(VPM)模块以进一步学习图像与点云之间的细粒度对齐。这是一个二分类任务,要求模型预测来自投影的像素点对是正匹配还是负匹配。VPM主要包括一个注意力编码器模块和一个二分类器。给定配对的图像特征和点云特征,图像特征为查询向量,而点云特征作为键和值向量。自注意力应用于图像特征以获得图像注意力特征。随后的交叉注意力在图像和点云特征之间进行,交叉特征经过前馈网络输出到一个二分类器获得匹配概率:
优化目标&多模态训练
为了实现3D开放世界场景理解,我们联合训练图像像素、3D点云与文本之间的对齐。我们提出的UniPLV有四个特定任务的损失:图像-文本对齐、点云-文本对齐、像素-点云匹配,以及逻辑和特征蒸馏损失。最终的总损失通过加权结合上述四种损失进行如下计算:
为了达到多模态稳定的训练,我们提出了一种两阶段多任务训练策略,用于训练多模态框架UniPLV。
阶段1:独立图像分支训练。 训练初步阶段,我们独立训练图像分支持续总迭代步数的一半,保证两个模态的网络梯度同步,并且在图像分支训练期间实施梯度剪裁,以防止梯度爆炸,保证训练稳定。
阶段2:统一多模态训练。 第二阶段涉及图像和点云分支的联合训练,采用不同的损失权重以有效平衡它们的损失值。在整个训练过程中,我们使用AdamW优化器,因其自适应学习能力和收敛稳定而被选择。优化器参数,特别是学习率和权重衰减,取决于每个分支的主干结构,并且针对图像和点云分支设置有所不同。这种策略上的优化设置差异确保了两个分支根据其特定的网络结构和数据特性进行训练,最终使得多模态训练任务达到更优的性能。
推理
推理过程如图2所示。在推理过程中,我们可以将任意开放词汇类别编码为文本查询,并计算它们与3D点云的相似性。具体来说,我们将每个点与计算出的余弦相似度最高的类别关联。由于我们已经将图像-文本对齐蒸馏到点云-文本对齐,因此在推理过程中不需要处理图像。
实验结果
结论&未来工作
结论。本文提出了一种用于开放世界3D场景理解的统一多模态学习框架,UniPLV,该框架不需要制作点云文本对,利用图像作为桥梁,提出了逻辑蒸馏、特征蒸馏和视觉-点云匹配模块。此外,我们引入了四个特定任务的损失函数和两阶段训练过程,以实现稳定的多模态学习。我们的方法在nuScenes数据集上显著超越了最先进的方法。此外,在不同3D骨干网络以及Waymo和Semantickitti数据集上的实验结果也显示了我们方法的可扩展性和轻量级特征。
未来工作。未来有一些工作需要改进和解决。我们提出的框架目前仅在室外数据集上进行了验证。未来,我们计划将验证扩展到室内数据集,如ScanNet,其中2D和3D之间的投影参数更为准确。我们将来会改进和量化图像分支,使提出的框架能够同时实现2D和3D开放世界场景理解任务。点云分支也可以替换为OCC占用预测网络,以扩展开放世界的应用。