PC-BEV：巧用多坐标系融合策略，实现点云分割170倍加速，精度显著提升！

本文经3D视觉之心公众号授权转载，转载请联系出处。论⽂题目：PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation论文作者：Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu论文地址：，其目标在于精细地理解周围环境的语义信息。目前，该领域的方法主要分为三类：基于点的方法、基于体素的方法和基于投影的方法。

本文经3D视觉之心公众号授权转载，转载请联系出处。

论⽂题目：PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

论文作者：Shoumeng Qiu, Xinrun Li, Xiangyang Xue, Jian Pu

论文地址：https://arxiv.org/pdf/2412.14821

1.背景介绍

激光雷达点云分割是自动驾驶领域的核心任务，其目标在于精细地理解周围环境的语义信息。目前，该领域的方法主要分为三类：基于点的方法、基于体素的方法和基于投影的方法。

其中，基于投影的方法因其能够利用2D卷积神经网络（CNN）高效处理投影点云而受到青睐。但是，相比于计算量大的基于体素方法，从3D到2D的投影过程中不可避免地丢失信息，这限制了这种算法的性能。

为了缩小这一性能差距，多视图融合技术应运而生，通过整合不同投影技术捕获的互补信息。近期的多视图融合方法，如AMVNet、GFNet和CPGNet，通过基于点的特征交互增强了表示学习。

然而，由于缺乏视图间的固定对应关系，这些方法需要进行高成本的网格采样和散射操作，影响了实时性能。此外，特征融合通常仅限于点存在的区域，可能会忽略周围区域中有价值的上下文信息。

▲图1 | 与其他基于投影的方法比较，结果展示了本文方法在性能和速度方面的优越性。©️【深蓝AI】编译

2.方法提出

为了克服这些限制，作者提出了一种创新的多分区特征融合框架，完全在BEV空间内操作，充分利用了极坐标和笛卡尔分区方案之间的固定对应关系。该方法受到BEV中极坐标分区与范围视图中球坐标分区相似性的启发，并且实验表明不同分区方法的性能具有互补性。

为了促进极坐标和笛卡尔分支之间的特征融合，作者引入了一种高效且有效的基于重映射的融合方法。利用极坐标和笛卡尔空间分区在相同BEV空间内固有的固定坐标对应关系，预先计算对应参数，再通过精心设计的重映射操作实现高效特征融合。这种方法比以往的基于点的特征交互方法快170倍。此外，所有的特征融合在BEV空间位置操作，不仅实现了密集融合，还保留了比以往基于点的方法更多的宝贵上下文信息。

作者还提出了一种混合Transformer-CNN架构，用于BEV特征提取。Transformer块中的自注意力捕获全局场景信息，然后是一个轻量级的U-net样式CNN用于详细特征提取。实验结果表明，这种架构在保持实时推理能力的同时增强了模型性能。

▲图2 | 极坐标-笛卡尔BEV融合框架用于3D点云语义分割任务的流程图。©️【深蓝AI】编译

3.方法详解

3.1. 极坐标-笛卡尔BEV融合框架

PC-BEV：巧用多坐标系融合策略，实现点云分割170倍加速，精度显著提升！

对于最终的语义预测，由于本方法的目标是为场景中的每个点提供语义预测，因此需要获取每个点在投影空间中用于类别预测的特征。对于从不同分支提取了特征，以前方法中的常见做法是通过网格采样（GS）操作检索每个点的相应特征。然后从不同分支采样的特征被融合。最后，融合的特征用于获得最终的语义预测结果。以前的基于点的输出融合可以表示为（这里作者假设使用连接操作进行融合）：

为了进一步加速模型推理，作者使用重映射操作对一个分支的特征与另一个分支对齐，这使模型能够仅对重映射分支执行一次网格采样。在论文中，作者选择将从极坐标分支提取的特征与笛卡尔空间对齐，因为作者实验发现这比相反的方式表现略好。作者将重映射的极坐标特征与笛卡尔特征连接，然后使用网格采样获得每个点的BEV位置特征。因此，作者方法中的最终点级特征输出可以表示为：

PC-BEV：巧用多坐标系融合策略，实现点云分割170倍加速，精度显著提升！

▲图3 | 在不同设置下，比较先前的基于点的方法和基于重映射的方法的特征交互操作过程。©️【深蓝AI】编译

3.2. 特征融合通过重映射

与以前的多视图融合方法在不同投影空间中操作，由于投影过程中的信息丢失导致动态网格到网格的对应关系不同，本设计的方法从两个分区分支在同一BEV空间下的固定位置对应关系中受益，这为本设计提供了改进特征融合过程效率的机会。

具体来说，作者采用重映射技术来对齐两种不同分区方法下的特征。鉴于两个分支之间网格对应关系是固定的，重映射参数可以预先计算，以实现高效特征融合。作者提供了重映射操作的详细步骤，突出了基于重映射的交互相对于基于点的交互的优势。以从极坐标空间到笛卡尔空间的重映射过程为例，注意从笛卡尔到极坐标空间的重映射遵循相同的原则。

PC-BEV：巧用多坐标系融合策略，实现点云分割170倍加速，精度显著提升！