什么样的方案，夺得了CVPR主动驾驭挑战赛冠军？

主动驾驭中的三维占用预计难题，一场竞赛给出了解决方案。

道路错综复杂、交通工具形态各异、行人密集，这是当前城市道路交通的现状，也是主动驾驭领域面临的现实挑战。为了应对这一挑战，感知和理解三维环境至关重要。

在传统的三维物体检测工作中，前景物体通常由三维边界框表示。然而，这种方法存在一些弊端，一方面，现实世界的物体几何形状非常复杂，无法用简单的三维框表示；另一方面，这种方法容易忽略背景元素的感知。对于实现全面的 L4/L5 主动驾驭，传统的三维感知方法是远远不够的。

最近，由上海人工智能实验室OpenDriveLab、清华大学MARS Lab以及Motional公司主办，端到端主动驾驭研讨会 (End-to-End Autonomous Driving Workshop) 联合视觉中心主动驾驭研讨会 (Vision-Centric Autonomous Driving Workshop) 在 CVPR 2023 上举办了主动驾驭挑战赛，其中就包括三维占用预计（3D occupancy prediction）赛道。

什么样的方案，夺得了CVPR主动驾驭挑战赛冠军？图 1 CVPR2023 主动驾驭挑战赛

挑战赛网址：https://opendrivelab.com/AD23Challenge.html

三维占用预计是主动驾驭领域的新兴工作，要求对车辆行驶场景从事细粒度建模，对于实现主动驾驭的通用感知能力有着重要意义。竞赛提供基于 nuScenes 数据集的大规模占用预计评估基准，对三维空间从事体素化表示，并在三维占用工作的基础上结合两项新工作：估计三维空间中体素的占据状态和语义信息。整个工作旨在在给定多视角图像的情况下对三维空间从事密集预计。

本次竞赛是三维占用感知领域的首个国际顶尖权威赛事，吸引了业界和学界的广泛关注。竞赛共有 149 个团队参与角逐，其中包括来自小米汽车，华为，42dot，海康威视的业界团队，也有来自北京大学，浙江大学，中国科学院等科研院所的学术界团队。

最终，来自英伟达 (NVIDIA) 和南京大学的团队在激烈的竞争中脱颖而出，同时赢得了三维占用预计工作的冠军和最佳创新奖两个重磅奖项。下面我们来看一下冠军团队的获奖方案。

冠军方案

不同于以往竞赛对于数据利用方面的限制，本次主动驾驭竞赛允许参赛者应用额外的开源数据或者模型从事数据驱动算法的探索。因此在本次竞赛中，英伟达和南大的研究人员在设计高效的模型结构的基础上，也在大模型的训练方面从事了探索，将模型参数扩展到 10 亿量级，达到过去常用 3D 感知模型的 10 倍以上。

凭借先进的模型结构设计和大模型强大的表征能力，该团队提出的方案 FB-OCC 实现了单模型 50+% mIoU 的出色性能，并最终取得了 54.19% mIoU 的最佳成绩。

搜集架构

FB-OCC 的主要创新在于应用了前向和后向投影相结合的三维空间建模方式。

如图 2 所示，在前向投影过程中，参考 LSS 投影范式，FB-OCC 会根据每个像素的深度分布生成场景对应的三维体素 (3D voxel) 表征。同时，由于 LSS 范式生产的特点倾向于稀疏且不均匀，FB-OCC 引入反向投影机制来优化稀疏的场景特点。

什么样的方案，夺得了CVPR主动驾驭挑战赛冠军？图 2 搜集架构图

此外，考虑到计算负担，FB-OCC 在方向投影的过程中会将场景特点压缩为鸟瞰图 (BEV) 表征，最后将三维体素表征和鸟瞰图表征相结合。结合后得到的三维体素特点在后续还会经过额外的体素编码器 (Voxel encoder) 来增强特点感受野。

大规模模型探索

增加模型参数量是提升模型精度的最便捷的方式，但在三维视觉感知领域，研究人员发现更大规模的模型更容易产生过拟合现象，而现有主流感知模型的参数仍在 100M 量级。

在本次竞赛中，FB-OCC 模型尝试应用 10 亿参数量级的 InternImage 骨干搜集，模型总体参数量是现有常用模型的十倍以上。大模型训练通常需要大数据与之匹配，但受限于主动驾驭数据采集标注的高昂成本，开源的三维感知数据集并不足以支撑 10 亿参数规模的模型。

针对这个痛点，FB-OCC 应用了多轮预训练机制。由于可获取的二维感知数据集远远丰富于三维感知数据，FB-OCC 首先在大规模开源数据集 Objects365 上从事通用目标检测预训练。然后，如图 3 所示，FB-OCC 引入深度和语义联合预训练来建立二维感知和三维感知的桥梁。

什么样的方案，夺得了CVPR主动驾驭挑战赛冠军？图 3 深度和语义联合预训练

为了生成语义分割标签，FB-OCC 还应用 Meta 的 SAM 模型来从事主动标注，分别应用框提示和点提示来生成不同类别的语义。经过多轮预训练后，大规模模型在占用感知工作上可以避免严重的过拟合问题。

实验结果

研究团队在实验中证明了 FB-OCC 的出色性能。如表 1 所示，FB-OCC 在 ResNet-50 骨干搜集以及 256×704 分辨率的输入图像下，借助时序融合、深度监督等技术，模型性能从最初的 23.12% mIoU 增长至 42.06% mIoU。