自动驾驶

世界模型会是L3自动驾驶的唯一解吗?2025 技术展望~

三维空间占有率(3D Occupancy)预测的目的是预测三维空间中的每个体素是否被占有,如果被占有,则对应的体素将被标记。 3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息,成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。 而自动驾驶世界模型(World Model)具备对真实物理世界的理解能力,基于一些历史信息/状态,能够预测未来时刻的场景变化甚至agents的状态变化。

SafeDrive:大语言模型实现知识驱动和数据驱动的风险-敏感决策

24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。 自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。 然而,确保动态、高风险环境中的安全并管理,对安全至关重要的长尾事件仍然是一项重大挑战。

顶刊JFR最新ROLO-SLAM开源:专为复杂地形下地面车辆的位姿漂移问题进设计

本文经3D视觉之心公众号授权转载,转载请联系出处。 解决垂直方向漂移定位在自动驾驶背景下至关重要。 它是安全高效导航的基础模块,使车辆能够准确地确定其在环境中的位置。

解放人工标注!理想多模态框架UniPLV:开放3D场景理解新SOTA

写在前面 & 笔者的个人理解开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别,而无需人工标注。 这对于真实世界的应用,如自动驾驶和虚拟现实等至关重要。 传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战,尤其3D语义标注,非常耗费人力和物力。

InfiniCube:来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法

本文经3D视觉之心公众号授权转载,转载请联系出处。 InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models介绍:: 是由英伟达主导开发的一种新型3D生成方法,用于生成无界且可控制的动态3D驾驶场景。 InfiniCube 通过结合高清地图、车辆边界框和文本描述,利用最新的3D表示和视频模型技术,实现了大规模动态场景的生成。

当人工智能遇上市政债券市场:聊聊算法交易与AI预测

算法交易时至今日,“算法交易”一词已经被广泛使用。 但其真实含义却往往众说纷纭。 没关系,下面咱们就来捋捋这个概念的具体细节。

世界模型再进化!DrivingWorld:通过视频GPT构建自动驾驶世界模型(港科技&地平线)

写在前面 & 笔者的个人理解最近自回归(AR)生成模型的成功,如自然语言处理中的GPT系列,促使人们努力在视觉任务中复制这一成功。 一些工作试图通过构建能够生成逼真的未来视频序列和预测自车状态的基于视频的世界模型,将这种方法扩展到自动驾驶。 然而,先前的工作往往产生不令人满意的结果,因为经典的GPT框架旨在处理1D上下文信息,如文本,并且缺乏对视频生成所必需的空间和时间动态进行建模的固有能力。

更真实的协同感知!EI-Drive:协同感知和融合通信特征的智驾平台

本文对EI-Drive: A Platform for Cooperative Perception with Realistic Communication Models进行介绍,EI-Drive将协同感知和通信延迟与误差融合,打造了一个更贴近车间通信(V2V Communication)真实部署环境的自动驾驶平台,为抗通信干扰的相关自动驾驶算法提供了测试和训练的平台。 项目详情:::,协同感知(Cooperative perception)得到了越来越多的关注,它使多个车辆或RSU能够共享传感器数据,从而增强其对环境的感知。 这种方法对克服传感器遮挡、视野受限以及噪声等限制尤为重要,这些限制可能导致障碍物的遗漏或决策上的致命错误。

中科院最新DrivingGPT:利用多模态自回归方法统一驾驶世界模型和规划双任务!

写在前面&笔者的个人理解目前,驾驶世界模型已获得了来自工业界和学术界的广泛关注,因为基于模型的搜索和规划被广泛认为是实现人类级智能的重要途径。 这些模型有多种用途,包括训练数据增强、稀有场景生成。 大多数当前世界模型都是通过微调现有的扩散模型来开发的,利用视频生成基础模型的泛化能力。

AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA

论文信息论文题目:LiON: Learning Point-wise Abstaining Penalty for LiDAR Outlier DetectioN Using Diverse Synthetic Data论文发表单位:清华大学, 厦门大学,滴滴出行, 香港中文大学-深圳论文地址::。 然而,由于点云不像图像那样具有丰富的语义信息,在点云中这个识别异常点是一项极具挑战性的任务。 本工作从两个方面缓解了点云缺乏语义信息对异常点感知的影响:1) 提出了一种新的学习范式,使模型能够学习更鲁棒的点云表征,增强点与点之间的辨别性;2) 借助额外的数据源,ShapeNet,提出了一套可以生成多样且真实伪异常的方法。

港科技最新DrivingRecon:可泛化自动驾驶4D重建新SOTA!

写在前面&笔者的个人理解从这一两年发表的论文数量可以看出,自动驾驶街景的重建与仿真备受关注,由此构建的自动驾驶仿真器对corner case的生成以及端到端模型的闭环评估/测试都非常重要,本次分享的是一篇关于自动驾驶场景4D重建的工作DrivingRecon。 论文链接: : ,比较具有代表性的是StreetGaussian,OmniRe这一类借助3D bbox将静态背景和动态物体解耦的框架,后来又出现了使用4D NeRF学习动态信息的方法,虽然取得了不错的效果,但这些方法都有一个共性,就是需要不断的训练来进行重建,即每个场景训练一个模型,非常耗时。 因此作者提出了一种可泛化的自动驾驶4D重建模型DrivingRecon。

了解世界还是预测未来?一场关于自动驾驶世界模型的祛魅(清华最新综述)!

写在前面 & 笔者的个人理解清华大学最新的综述。 由于多模态大语言模型(如GPT-4)和视频生成模型(如Sora)的进步,世界模型的概念受到了极大的关注,这是追求通用人工智能的核心。 这项调查对世界模型的文献进行了全面的回顾。

Occ预测最新SOTA!清华团队提出基于高斯世界模型的GaussianWorld算法~

写在前面&笔者的个人理解以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。 3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。 该任务提供了更细粒度的场景语义和结构描述,这对于开发安全且强大的自动驾驶系统非常重要。

3D世界的新视角:以Object为中心的占用补全技术(港中文&小米)

写在前面 && 笔者理解传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。 比如下图1(a)所示,起重机被一个3D边界框完美包围。 但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。

六大数据集全部SOTA!最新DriveMM:自动驾驶一体化多模态大模型(美团&中山大学)

写在前面 & 笔者的个人理解近年来,视觉-语言数据和模型在自动驾驶领域引起了广泛关注。 许多精心设计和标注的数据集用于微调多模态大模型,使模型不仅能理解视觉输入并生成文本回答,更能适用于自动驾驶多种应用场景。 由于驾驶场景的复杂多变以及驾驶行为的多样性,现有的自动驾驶模型和数据往往专注于单一场景和任务。

北航&清华联合发力!Stag-1:视频生成模型实现超逼真的4D驾驶场景算法!

写在前面&笔者的个人理解近年来,随着自动驾驶在感知、预测和规划方面取得的重大进步,端到端算法网络也取得了重大进展。 随着现如今这些技术的飞速进步,自动驾驶汽车的全面测试和验证也变得越来越重要。 然而,真实世界的车辆测试仍然耗时、费用昂贵,并且场景的覆盖范围也非常有限。

万物皆可高斯!清华最新GaussianAD:以高斯为中心的端到端自动驾驶,完爆当前SOTA!

写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。 大多数现有方法采用密集表示(如鸟瞰图)或稀疏表示(如实例框)进行决策,这会在全面性和效率之间进行权衡。 本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯来广泛而稀疏地描述场景。

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

写在前面 & 笔者的个人理解西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。 近期生成 重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。 先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。