0.背景信息
在人工智能的前沿领域,3D场景问答(3D QA)正在成为视觉与语言理解的关键挑战。相比于传统的2D视觉问答(VQA),3D QA需要模型不仅能够感知复杂的三维空间结构,还要理解语言描述与场景之间的关系。然而,目前的3D QA方法大多依赖于3D点云数据,而忽视了多视角图像提供的丰富局部纹理信息,这使得模型在面对小型、扁平物体时表现受限。
在这一背景下, 研究人员提出了一种名为DSPNet(Dual-vision Scene Perception Network)的新型网络架构,它融合了点云与多视角图像信息,实现更鲁棒的3D场景问答推理。
1.论文信息
- 标题:DSPNet: Dual-vision Scene Perception for Robust 3D Question Answering
- 作者:Jingzhou Luo, Yang Liu, Weixing Chen, Zhen Li, Yaowei Wang, Guanbin Li,Liang Lin
- 机构:中山大学、香港中文大学(深圳)、鹏城实验室
- 原文链接:http://arxiv.org/abs/2503.03190
- 代码链接:https://github.com/LZ-CH/DSPNet
2. 挑战与解决方案
现有的多数3D QA方法主要依赖3D点云(比如ScanQA和3DGraphQA),通过检测和建模物体之间的关系来推理问题答案,而忽略了多视角图像对于全面 3D 场景感知和推理的关键作用。
例如,考虑图 1 中给出的问题“电视位于图画的哪一侧?”不仅需要识别几何场景中的实体,还需要理解场景实体和问题之间复杂的语义和空间关系。然而,现有的 3D QA 模型仅依靠点云信息很难准确识别一些扁平和小物体(例如电视、图片、地毯、手机等),而多视角图像可以通过丰富的局部纹理细节弥补这一点。
图 1 通过双视觉(点云和多视角图像)实现更全面的场景感知
由于相机位姿噪声、视角缺失和遮挡问题,简单采用多视角图像的反投影(back-projection)来融合特征,往往会导致特征退化,影响QA模型的稳定性。如图 2(a) 所示,在多视角特征聚合过程中,若对所有视图赋予相同的权重,可能无法充分考虑不同视图对特定任务的重要性。理想情况下,各视图的贡献应依据具体问题动态调整。此外,如图 2(b) 所示,由于相机位姿固有噪声、部分视角的缺失以及复杂的遮挡,在将多视角图像反投影到 3D 点云空间时,特征退化在所难免。
图 2 反投影的固有局限性。红色点表示反投影期间遗漏的点(即无效点),红色椭圆突出显示与原始点云特征相比明显退化的区域。
DSPNet旨在解决上述问题,通过双视角感知策略,使得3D QA模型能够同时利用点云与多视角图像信息:
- 基于文本引导的多视角融合(TGMF):融合多视角图像特征,在多视角特征融合过程中也能考虑文本上下文语境,促进挖掘更有利于回答问题的视角图像特征。
- 自适应双视觉感知(ADVP):逐点逐通道地自适应融合源于点云与图像的特征,缓解在多视角图像在反向投影过程中存在的特征退化问题
- 多模态上下文引导推理(MCGR):执行跨模态的高效交互与推理,综合利用较为密集的与下采样后的较为稀疏的视觉特征,在节省计算资源的同时,还能兼顾感知理解细致的场景信息。
3. 方法简介
3.1 网络架构
图 3 DSPNet的总体架构
DSPNet的整体架构如图 3所示,包括文本编码器、点云编码器、多视角图像编码器三大输入模块,以及TGMF、ADVP和MCGR等关键模块。
- 文本编码器:采用Sentence-BERT(SBERT)提取上下文信息,并对情景描述与问题进行编码。
- 点云编码器:使用PointNet++提取点云特征,保留空间结构信息。
- 图像编码器:利用Swin Transformer提取多视角图像特征,增强局部纹理感知能力。
3.2 核心模块解析
(1)基于文本引导的多视角融合(TGMF)模块
- 如图4,该模块执行反向投影,并通过计算文本内容与多视角图像的注意力,对不同视角在特征融合时赋予不同权重,从而使得多视角融合过程中能优先考虑与文本相关的视角。
- 步骤1:根据相机参数,将多视角图像特征反向投影到3D点云坐标空间。
- 步骤2:利用跨模态注意力机制根据文本与视角池化特征的相互注意力计算每个视角的权重,使得与问题相关的视角获得更高关注度。
- 步骤3:融合加权后的多视角特征,形成融合后的视觉信息。
图 4 文本引导的多视角融合(TGMF)模块旨在融合多视图特征。
(2)自适应双视觉感知(ADVP)模块
- 传统的点云与多视角图像融合方法难以应对特征退化问题,如图 5所示,ADVP模块通过逐点逐通道的注意力机制来动态调整特征的权重:
- 步骤1:拼接点云特征和回投后的多视角特征。
- 步骤2:使用MLP学习自适应权重。
- 步骤3:使用加权增强高置信度特征,同时抑制低置信度特征。并最终使用一层全连接层映射到统一的特征空间。
图 5 自适应双视觉感知(ADVP)模块旨在自适应地感知来自点云和多视角图像的视觉信息。
(3)多模态上下文引导推理(MCGR)模块
- MCGR模块旨在通过跨模态交互,综合利用密集与稀疏的视觉特征,在节省计算资源的同时,能兼顾感知理解细致的场景信息(见图 3的MCGR模块)。
- 步骤1:使用最远点采样(FPS)提取较为稀疏的关键点级别特征,减少计算量。引入位置编码,保持空间信息完整性。
- 步骤2:在MCGR子层中,稀疏的点特征通过cross-attention与密集点特征进行交互,并采用跨模态Transformer,与文本信息进行深度融合。这避免了密集点特征直接与文本进行交互,既降低了计算成本,又确保了空间视觉信息的完整性。
- 步骤3:通过堆叠L层的MCGR子层,来将视觉信息与文本信息进行深度融合,提高空间推理能力。
4. 实验部分
4.1 在SQA3D上的表现
如表 1所示,DSPNet在“What”、“How”和“Other”问题类型上取得最佳结果,并且在平均准确率方面优于其他方法,包括使用了外部3D-文本成对数据集预训练的方法。这证明了DSPNet具有强劲的多模态空间推理能力。
表 1 在SQA3D数据集上的问答准确率。测试集栏中:括号内表示各题型的样本数。最好结果以粗体显示,次好结果以下划线显示。
4.2 在ScanQA上的表现
如表 2所示,DSPNet在大多数评估指标上都优于现有的代表性方法,尤其是在 CIDEr、ROUGE 和 METEOR 中,它明显超越了其他方法。
表 2 ScanQA 上的答案准确率。每个条目表示“有对象测试”/“无对象测试”。最佳结果以粗体标记,次佳结果以下划线标记。
4.3 消融实验
如表 3所示,实验表明,TGMF、ADVP和MCGR这三个模块对提升DSPNet的3D空间推理能力至关重要。进一步验证了DSPNet的方法有效性。
表 3 各组件的消融研究。在 ScanQA 数据集的验证集和 SQA3D 数据集的测试集上进行,使用 EM@1 作为评测指标。
如表 4所示,去除DSPNet的2D模态,仅使用点云作为视觉信息来源,此时模型在两个评测集上的准确率大幅下降,这进一步验证了多视角图像在三维场景问答任务中的重要性。
表 4 使用 2D 模态的有效性消融研究
5. 定性研究
如图 6所示,DSPNet 在感知和推理一些具有挑战性的实体方面表现更好,例如那些具有平面形状和丰富局部纹理细节的实体,这些实体仅基于点云几何形状难以识别。此外,DSPNet 可以区分细微的颜色差异,例如白色和银色之间的差异,从而增强了其在识别细粒度视觉区别方面的鲁棒性。
图 6 DSPNet方法与 ScanQA 和 SQA 的定性比较
6. 结论
该论文提出了一种用于3D问答的双视觉感知网络 DSPNet。DSPNet 通过基于文本引导的多视角融合(TGMF) 模块融合多视角图像特征,并采用自适应双视角感知(ADVP)模块,将图像与点云特征融合为统一的表征。最终,引入多模态上下文引导推理(MCGR) 模块,实现对3D场景的综合推理。实验结果表明,DSPNet 在 3D问答任务中优于现有方法,预测答案与参考答案在语义结构上的对齐性更好,表现更加出色。