自动驾驶

Occ预测最新SOTA！清华团队提出基于高斯世界模型的GaussianWorld算法~
写在前面&笔者的个人理解以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。 3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。该任务提供了更细粒度的场景语义和结构描述，这对于开发安全且强大的自动驾驶系统非常重要。
理论
- 974
- 0
自动驾驶之心16小时前
3D世界的新视角：以Object为中心的占用补全技术（港中文&小米）
写在前面 && 笔者理解传统的感知主要采用3D对象边界框（bboxes）来表征感知，但是这样的表示其实是有局限性的，它无法捕捉物体形状的精确细节，特别是对于具有不规则几何形状的物体，因为它本质上是一个包含物体的长方体。比如下图1(a)所示，起重机被一个3D边界框完美包围。但是，其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。
理论
- 971
- 0
自动驾驶之心16小时前
六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）
写在前面 & 笔者的个人理解近年来，视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型，使模型不仅能理解视觉输入并生成文本回答，更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性，现有的自动驾驶模型和数据往往专注于单一场景和任务。
理论
- 979
- 0
Zhijian Huang等12月20日
北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！
写在前面&笔者的个人理解近年来，随着自动驾驶在感知、预测和规划方面取得的重大进步，端到端算法网络也取得了重大进展。随着现如今这些技术的飞速进步，自动驾驶汽车的全面测试和验证也变得越来越重要。然而，真实世界的车辆测试仍然耗时、费用昂贵，并且场景的覆盖范围也非常有限。
理论
- 976
- 0
自动驾驶之心12月19日
万物皆可高斯！清华最新GaussianAD：以高斯为中心的端到端自动驾驶，完爆当前SOTA！
写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。大多数现有方法采用密集表示（如鸟瞰图）或稀疏表示（如实例框）进行决策，这会在全面性和效率之间进行权衡。本文探索了一个以高斯为中心的端到端自动驾驶（GaussianAD）框架，并利用3D语义高斯来广泛而稀疏地描述场景。
理论
- 987
- 0
Wenzhao Zheng等12月18日
Omni-Scene：Gaussian统一表征下的自动驾驶多模态生成新SOTA！
写在前面 & 笔者的个人理解西湖大学和浙大的工作，利用3DGS的统一表征，结合扩散模型打通自动驾驶场景的多模态生成。近期生成重建的算法越来越多，这说明单重建或者单生成可能都没有办法很好的cover闭环仿真，所以现在的工作尝试两者结合，这块应该也是后面闭环仿真落地的方向。先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。
理论
- 981
- 0
Dongxu Wei等12月18日
谷歌 CEO 皮查伊：特斯拉和 Waymo 是自动驾驶领域前两名
在纽约时报 DealBook 峰会上，谷歌首席执行官桑达尔・皮查伊（Sundar Pichai）高度评价特斯拉在自动驾驶领域的领先地位，并将其与 Waymo 并列为行业翘楚。
应用
- 971
- 0
远洋12月16日
闭环仿真日新月异的今天，如何紧跟节奏？自动驾驶3DGS最新综述！
写在前面NeRF技术兴起于2020年，自此掀起了三维重建领域新一轮的革新风暴。三年时间飞逝，新的算法和改进层出不穷，其视觉质量逐步提高突破。并且在该技术的支持下，许多领域都取得了突破性的成果。
理论
- 980
- 0
自动驾驶之心12月13日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
本文是对 UniScene: Unified Occupancy-centric Driving Scene Generation的解读，UniScene 在Video、LiDAR 和Occupancy生成方面超过了所有之前的SOTA方法。此外，UniScene生成的数据可显着增强下游任务，包括Occupancy预测、3D检测和BEV分割。论文链接：：、可控、带注释的训练数据对于自动驾驶至关重…
理论
- 992
- 0
自动驾驶之心12月12日
久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）
写在前面大家好，很荣幸能受到自动驾驶之心的邀请来为大家分享我们的一篇关于单目车道线检测的综述。与papaer里展现的顺序和内容可能有所不同，在这里笔者想更多地讲一讲本文的成文过程以及各类方法的发展史，因此对于各方法的详细介绍读者可以参考本文原文，这里不会花费过多笔墨来重述。关于本文原文中提到的方法，以及更多未提到的方法的论文和代码均可在笔者构建的GitHub仓库里找到，笔者后续也会不断更新，欢…
理论
- 982
- 0
自动驾驶之心12月11日
无惧大平移！MMLab最新FreeSim：渐进迭代拿下3m平移新视角
写在前面 & 笔者的个人理解最新重建方面的工作是真多啊，基本上大家都在卷仿真重建。今天分享MMLab最新的工作，提出了FreeSim。一种用于自动驾驶的相机仿真方法。
理论
- 976
- 0
Lue Fan等12月10日
多榜单SOTA！SplatAD：首个实现Lidar & 视觉重建大一统框架，仿真闭环再下一城~
写在前面&笔者的个人理解在实际部署之前，大规模测试对于确保自动驾驶汽车 (SDV) 等自主机器人的安全至关重要。从收集的日志中生成数字孪生的数据驱动方法提供了一种可扩展的方式来构建多样化、逼真的测试仿真环境。与成本高昂、耗时且受物理约束限制的实际测试不同，模拟可以快速、低成本地探索多种场景，有助于优化自动驾驶车辆的安全性、舒适性和效率。
理论
- 977
- 0
自动驾驶之心12月10日
真实闭环拉满！浙大&华为发布全新闭环仿真工具HUGSIM
写在前面 & 笔者的个人理解在过去的几十年里，自动驾驶算法在感知、规划和控制方面取得了重大进展。然而，评估单个组件并不能完全反映整个系统的性能，这突显了对更全面评估方法的需求。这推动了HUGSIM的发展，这是一个闭环、真实和实时的仿真器，用于评估自动驾驶算法。
理论
- 976
- 0
Hongyu Zhou等12月6日
北大王选最新OpenAD！助力自动驾驶迈向开放3D世界
写在前面 & 笔者的个人理解开放世界自动驾驶包括域泛化和开放词汇。领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇是指识别训练中没有遇到的各种语义类别的能力。
理论
- 973
- 0
自动驾驶之心12月4日
3DGS自监督预训练全新范式！VisionPAD：三大感知任务全部暴力涨点（港中文&华为）
写在前面 && 笔者理解虽然近一年端到端的自动驾驶发展火热，但是以多视角图像推导BEV视角和占用空间的感知技术引领的自动驾驶框架，仍然在很多企业中占据主体。比如今天要分享的这篇，就是华为诺亚方舟实验室对BEV OCC的继续研究。但是不得不说，这些模型在很大程度上依赖于精确的3D标注，而数据标注的高成本使得越来越多的研究人员和工程师开始关注预训练策略。
理论
- 986
- 0
黄哲威 hzwer12月3日
大幅超越所有SOTA！地平线DiffusionDrive：生成式方案或将重塑端到端格局？
写在前面&笔者的个人理解近年来，由于感知模型的性能持续进步，端到端自动驾驶受到了来自工业界和学术界的广泛关注，端到端自动驾驶算法直接从原始传感器采集到的信息输入中学习驾驶策略。这种基于数据驱动的方法为传统的基于规则的运动规划提供了一种可扩展且强大的替代方案，而传统的基于规则的运动规划通常难以推广到复杂的现实世界驾驶环境。为了有效地从数据中学习驾驶过程，主流的端到端规划器通常从自车查询中…
理论
- 980
- 0
Bencheng Liao等12月3日
魔法降临！港中文MagicDriveDiT：暴力提升生成质量40%！
写在前面 & 笔者的个人理解扩散模型的快速发展极大地改善了视频合成，特别是在可控视频生成方面，这对自动驾驶等应用至关重要。然而，现有的方法受到可扩展性和控制条件集成方式的限制，无法满足自动驾驶应用对高分辨率和长视频的需求。本文介绍了一种基于DiT架构的新方法MagicDriveDiT，并解决了这些挑战。
理论
- 978
- 0
Ruiyuan Gao等11月28日
专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）
本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面 & 个人理解UC Berkeley最新的工作，提出了DeSiRe GS。全新自监督高斯飞溅表示，可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。
理论
- 979
- 0
Chensheng Peng等11月27日
闭环仿真杀器！DrivingSphere：理想提出直接构建高保真4D世界
写在前面&笔者的个人理解近年来，端到端自动驾驶算法取得了重大进展，准确评估这些模型是一项非常紧迫的任务。为了安全、负责任地进行评估，必须有一个精确的模拟环境，准确反映现实世界的驾驶条件。这个要求通常包括两个方面：一是高保真传感数据的生成，二是闭环反馈机制的实现。
理论
- 979
- 0
Tianyi Yan等11月26日
Mamba与元学习双管齐下，打造新的语义补全方案！
本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面 && 笔者理解传统的自动驾驶框架下，现有感知而后又规控，所以可以说感知在这套框架下扮演着非常基础性的工作。然而，动态交通参与者的突发性和可变性，加上静态对象的较大的范围和距离，给自动驾驶车辆在感知复杂驾驶场景时带来了不小的挑战。
理论
- 973
- 0
Yansong Qu等11月20日
Waymo玩明白了！全新多模态端到端算法EMMA：感知规划一网打尽~
写在前面 & 笔者的个人理解本文介绍了EMMA，一种用于自动驾驶的端到端多模态模型。 EMMA建立在多模态大型语言模型的基础上，将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中，包括规划者轨迹、感知目标和道路图元素。 EMMA通过将所有非传感器输入（如导航指令和自车状态）和输出（如轨迹和3D位置）表示为自然语言文本，最大限度地利用了预训练的大型语言模型中的世界知识。
理论
- 977
- 0
Jyh-Jing Hwang等11月14日
通用场景拉满了！GenXD：生成任何3D&4D场景（新加坡国立&微软最新）
写在前面&笔者的个人理解近年来，利用扩散和自回归建模生成2D视觉内容已经取得了显著成功，并已在实际应用中进行广泛使用。除了 2D 生成之外，3D 内容生成也至关重要，可应用于视频游戏、视觉效果和可穿戴混合现实设备。然而，由于 3D 建模的复杂性和 3D 数据的局限性，3D 内容生成仍然远远不能令人满意，并且正在引起学术界和工业界越来越多的关注。
理论
- 969
- 0
Yuyang Zhao等11月12日
自动驾驶界秋名山车神！CoRL杰出论文让自驾车学会漂移，机器人整出新活
今年的机器人顶会 CoRL 杰出论文，竟然帮自动驾驶车稳稳地完成了漂移。先来个甜甜圈漂移热个身：然后，上点难度，来个「8 字」：最后来个蛇形绕桩（Slalom，这次没有实体的桩）。可以听见，在绕到一半的时候，工作人员忍不住欢呼了一下。
应用
- 8
- 0
机器之心11月11日
LVLM赋能端到端！地平线&华科联手打造更强自动驾驶系统Senna！
本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解近年来，自动驾驶技术发展迅速，在驾驶感知、运动预测、规划等领域取得了重大进展，为实现更准确、更安全的驾驶决策奠定了坚实的基础。其中，端到端自动驾驶技术取得了重大突破，端到端方法以大规模数据为基础，展现出卓越的规划能力。
理论
- 972
- 0
Bo Jiang等11月7日