港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。 作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。 OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能,成本减少近80%!

本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能,成本减少近80%!相比此前最先进的方法,OccProphet性能提升至1.2倍,速度提升至2.6倍,内存占用减少近60%,仅需24G显存即可完成训练和推理。代码即将开源。

  • 论文链接:https://arxiv.org/abs/2502.15180
  • 代码链接:https://github.com/JLChen-C/OccProphet

图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%图1:(左)OccProphet示意图。OccProphet仅接收多相机视频输入,并生成未来时刻的占用;(右)相比于Cam4DOcc,OccProphet性能提升约20%,速度提升约160%

动机

提升自动驾驶车辆对动态环境的感知与预测能力,是自动驾驶安全性和可靠性的迫切需求。传统的占据感知(Occupancy Perception)方法通过学习空间中的占据状态,能够理解环境的当前和过去状态,而无法预测未来动态。事实上,预测未来场景对于安全驾驶和避免碰撞至关重要。

这篇文章研究基于相机的占用预测(Occupancy Forecasting),能够理解自动驾驶车辆周围环境的动态变化,并对未来进行合理预测。考虑到现有的基于相机的占据预测方法(例如Cam4DOcc)计算成本高,不具备在计算资源受限的边缘设备(例如自动驾驶车辆)的部署能力,这篇文章的主要动机在于开发一种轻量且高效的框架——OccProphet。

它仅仅使用环视图片序列作为输入,能准确预测未来时刻的4D占据(时间维度+空间维度)。在轻量化处理上,OccProphet引入了三大精简模块(Observer、Forecaster 和 Refiner),并采用高效的4D特征聚合与三元组注意力融合策略,旨在在显著降低计算需求的同时提升预测的准确性。这一进步,首次展现了4D占用感知在自动驾驶车辆上部署的可行性

方法详解

如图2所示,OccProphet 是一种新型的仅基于摄像头的占据预测框架,它不管在训练阶段还是推理阶段都是计算友好的。

图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。图2:OccProphet概述。它接收来自环视摄像头的多帧图像作为输入,并输出未来的占用情况或占用流动。OccProphet由四个关键组件组成:观察器(Observer)、预报器(Forecaster)、细化器(Refiner)和预测器(Predictor)。观察器模块负责聚合时空信息。预报器模块有条件地生成未来场景的初步表示。这些初步表示通过细化器模块进行细化。最后,预测器模块产生对未来占用或占用流的最终预测。

  • 观察器(Observer)模块:高效且有效地聚合多帧观测(即多帧3D体素特征)中的时空信息。
  • 预报器(Forecaster)模块:在 Observer 的输出基础上,自适应地预测未来状态,从而确保在各种交通状况下的灵活性。
  • 细化器(Refiner)模块:通过促进帧间交互,进一步提升这些预测的质量。
  • 预测器(Predictor):将经过优化的未来状态解码为占用或占用流。

OccProphet 在创新性方面主要做出了以下贡献:

  • 一种新颖的仅基于摄像头的占用预测框架,在训练和推理过程中都兼具高效性和有效性,适用于车载部署。
  • 一个轻量级的观察器-预报器-细化器框架。观察器(Observer)模块从历史观测中提取时空特征;预报器(Forecaster)模块有条件地预测粗略的未来状态;细化器(Refiner)模块则进一步提升预测准确性。
  • 实验结果表明,OccProphet在预测准确性上更胜一筹,同时其计算成本不到Cam4DOcc的一半。这些优势在nuScenes、Lyft-Level5以及nuScenes-Occupancy数据集上均得到了验证。

关键组件

观察器(Observer)

港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

Efficient 4D Aggregation(高效4D聚合)

图3:高效4D聚合模块图3:高效4D聚合模块

港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

Tripling-Attention Fusion(三元组注意力融合)

图4:三元组注意力融合(左)和三元组分解操作(右)图4:三元组注意力融合(左)和三元组分解操作(右)

三元组注意力融合模块(TAF)专为促进多个三维特征间的时空交互而设计,通过提出的三三元组分解操作进一步降低计算成本。该操作旨在从三个互补且紧凑的角度理解三维空间,从而以较低的计算成本保留三维场景信息。具体而言,三元组分解操作将三维特征分解为场景、高度和BEV三个分支,分别压缩三维特征至一维或二维特征,减少后续计算开销。场景分支提取全局上下文,提供对场景的整体理解;高度分支保留垂直细节,作为2D BEV分支的补充线索,增强三维几何信息的表现能力。

港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

预报器 (Forecaster)

图5:预报器的结构图5:预报器的结构

港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

细化器(Refiner)

港理工OccProphet:纯视觉Occ SOTA!速度提升至2.6倍,内存占用减少60%

实验

网络的训练使用4块(至少1块)RTX4090 GPU,测试使用1块RTX4090 GPU(24G显存)。

实验结果表明,OccProphet在预测准确性和效率上均表现出色,在三个数据集上相对于最先进的Cam4DOcc模型,其占用预测准确性分别提升了4%∼18%,同时运行速度提高了约1.6倍,计算成本降低了58%∼78%。

定性实验

图6:Cam4DOcc与OccProphet的定性实验图6:Cam4DOcc与OccProphet的定性实验

Cam4DOcc和OccProphet在未来2秒内的占用预测可视化。红色虚线矩形表明OccProphet的结果相比Cam4DOcc的结果与真实标注更加一致。第一行结果表明OccProphet在低光照条件下具有较强的适应性。

定量实验

图7:不同表征形式之间的比较

图7:不同表征形式之间的比较

采用E4A表征在性能上优于BEV和TPV表征,且参数更少,计算成本仅略有增加。

图8:在细粒度的一般运动物体和一般静态物体上的4D占用预测性能图8:在细粒度的一般运动物体和一般静态物体上的4D占用预测性能

OccProphet在细粒度的4D占用预测上具有明显优势。

图9:模型复杂度的比较图9:模型复杂度的比较

与Cam4DOcc相比,OccProphet的参数量、内存占用和FLOPs均降低了58%-78%,同时OccProphet在未来帧的平均IoU上实现了相对4%的提升,并且其FPS达到了Cam4DOcc的2.6倍。

更多定性和定量实验及分析见论文。OccProphet将激励在高效占用预测及其车载部署等领域的更多研究。

结论

本文提出了OccProphet,这是一种用于占用预测的全新纯视觉框架。该框架采用了一个Observer Forecaster Refiner管道,专门用于高效和有效的培训和推理。这种效率和有效性是通过4D聚合和对低分辨率特征进行三重注意力融合来实现的。实验结果证明了OccProphet在预测准确性和效率方面的优越性。在三个数据集上,它在占用率预测方面比最先进的Cam4DOcc高出4%至18%,同时运行速度提高了2.6倍,计算成本降低了58%-78%。我们希望OccProphet能够推动未来在高效占用率预测及其在车载部署中的应用方面的研究。

相关资讯

多榜单SOTA!SplatAD:首个实现Lidar & 视觉重建大一统框架,仿真闭环再下一城~

写在前面&笔者的个人理解在实际部署之前,大规模测试对于确保自动驾驶汽车 (SDV) 等自主机器人的安全至关重要。 从收集的日志中生成数字孪生的数据驱动方法提供了一种可扩展的方式来构建多样化、逼真的测试仿真环境。 与成本高昂、耗时且受物理约束限制的实际测试不同,模拟可以快速、低成本地探索多种场景,有助于优化自动驾驶车辆的安全性、舒适性和效率。

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢? 为此,来自港中文MMLab的研究者们提出了MME-CoT。 这是一个全面且专门用于评估LMMs中视觉推理能力的Benchmark,包括了数学、科学、OCR、逻辑、时空和通用场景。

3DGS自监督预训练全新范式!VisionPAD:三大感知任务全部暴力涨点(港中文&华为)

写在前面 && 笔者理解虽然近一年端到端的自动驾驶发展火热,但是以多视角图像推导BEV视角和占用空间的感知技术引领的自动驾驶框架,仍然在很多企业中占据主体。 比如今天要分享的这篇,就是华为诺亚方舟实验室对BEV OCC的继续研究。 但是不得不说,这些模型在很大程度上依赖于精确的3D标注,而数据标注的高成本使得越来越多的研究人员和工程师开始关注预训练策略。