自动驾驶

Wayve推完整世界模型GAIA-2：支持同时生成5个视角的视频，可模拟高风险场景

Wayve公司近日隆重推出了其最新的视频生成世界模型——GAIA-2。这一突破性的技术是其上一代模型GAIA-1的重大升级，旨在通过生成高度多样化和可控的驾驶场景视频，极大地推动辅助和自动驾驶系统的安全性发展. GAIA-2的发布标志着Wayve在利用生成式人工智能技术赋能更安全、更智能的出行方面迈出了坚实的一步。

自动驾驶首次应用测试时计算！港大英伟达等新技术让AI边开边学，无人车遇变道自如应对

当开车遇到变道、加塞等场景时，驾驶员往往会下意识地激活自己的“安全驾驶思维”，从而做出激进的规避行为。与之类似，自动驾驶汽车在上述场景中，更会表现得像个谨小慎微的”新手司机”，这是因为模型的决策往往依赖于工程师预设的固定规则，进而导致“不求无功，但求无过”的驾驶风格，但过多的无故急刹、过度避让反而会引发额外的安全隐患。针对上述问题，来自香港大学、英伟达和德国图宾根大学的联合团队提出Centaur（Cluster Entropy for Test-time trAining using UnceRtainty）方法，能够动态地改善驾驶策略，通过在线的数据驱动，摆脱了对预设规则的依赖，大幅提高了自动驾驶汽车在不确定性场景中的适应性与安全性。

仅凭RGB图像实现户外场景高精度定位与重建，来自港科广团队 | ICRA 25

从自动驾驶、机器人导航，到AR/VR等前沿应用，SLAM都是离不开的核心技术之一。现有基于3D高斯分布（3DGS）的SLAM方法虽在室内场景表现出色，但使用仅RGB输入来处理无界的户外场景仍然面临挑战：准确的深度和尺度估计困难，这影响了姿态精度和3DGS初始化图像重叠有限且视角单一，缺乏有效的约束，导致训练难以收敛为了解决上述挑战，港科广团队提出全新解决方案——OpenGS-SLAM。仅凭RGB图像实现高精度定位与逼真场景重建。

GTC大会上，理想发布下一代自动驾驶架构MindVLA

MindVLA 一种是视觉-语言-行为大模型，是机器人大模型的新范式。它将空间智能、语言智能和行为智能统一在单个模型里，为 AI 赋予了强大的 3D 空间理解能力、逻辑推理能力和行为生成能力，让自动驾驶能够感知、思考和适应环境。

深度解析以Decoder为核心的无BEV的大一统端到端架构 | 对话CCF-CV学术新锐奖贾萧松博士

论文的一些巧思1. 人开车其实并没有最优解，请问如何确定学习时的参考数据呢?开车其实也是多种多样的，然后你模仿学习本质上就是告诉他你只能这样做，你做了别的那个mass loss还会惩罚他。其实就是我们说的，我们其实就不能通过模仿来做。

首创GRPO方案！AlphaDrive：VLM+RL破解自动驾驶长尾难题

写在前面 & 笔者的个人理解OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平，强化学习（RL）和推理在其中发挥了关键作用。在自动驾驶领域，最近的端到端模型极大地提高了规划性能，但由于常识和推理能力有限，仍然难以应对长尾问题。一些研究将视觉-语言模型（VLMs）集成到自动驾驶中，但它们通常依赖于预训练模型，并在驾驶数据上进行简单的监督微调（SFT），没有进一步探索专门为规划设计的训练策略或优化方法。

一文读懂迁移学习和ASPP如何使自动驾驶汽车的目标检测更加智能

译者 | 张哲刚审校 | 重楼自动驾驶汽车是不能犯错误的，忽视一个红绿灯或一个行人都可能意味着灾难。但城市环境是动态的，在这样的环境中目标检测是一个大难题。我使用空洞空间卷积池化金字塔（ASPP）和迁移学习来优化自动驾驶汽车的目标检测，结果如何呢？

快慢双系统！清华&博世最新Chameleon：无需训练即可解决复杂道路拓扑（ICRA'25）

在自动驾驶技术中，车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素（如交通灯、标志），还要理解它们之间的复杂关系。例如，判断车辆是否可以左转进入某条车道，就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。

全自动驾驶真的来了！花6万4才能用！马斯克急忙上线阉割版!AI提醒驾驶员别走神，网友实测翻车:秒变移动路障；李想：在实战中分高下

出品 | 51CTO技术栈（微信号：blog51cto）千呼万唤，特斯拉FSD真的来了！特斯拉已开始在中国向车主分批次推送FSD的软件更新了，版本号2024.45.32.12，与北美版一致。不过，马斯克急急慌慌入华的FSD，槽点好像真的有点多。

港理工OccProphet：纯视觉Occ SOTA！速度提升至2.6倍，内存占用减少60%

本文分享一篇由香港理工大学最近公开的发表于ICLR2025的论文『OccProphet: Pushing Efficiency Frontier of Camera-Only 4D Occupancy Forecasting with Observer-Forecaster-Refiner Framework』。作者在文中提出了一个轻量级的观察器-预报器-细化器框架OccProphet来实现高效的未来4D占用预测。 OccProphet在nuScenes、 Lyft-Level5和nuScenes-Occupancy等多个数据集上取得最先进的4D占用预测性能，成本减少近80%！

北航&滴滴！自动驾驶汽车的运动预测：综述

论文链接：：综述。近年来，自动驾驶领域吸引了越来越多的关注。准确预测各种交通参与者的未来行为对于自动驾驶汽车（AVs）的决策是至关重要的。

全面超越OccWorld！Occ-LLM：Occ世界模型再度问鼎SOTA

写在前面&出发点大语言模型（LLMs）在机器人和自动驾驶领域取得了重大进展。本研究提出了首个基于占用的大语言模型（Occ-LLM），这是将大语言模型与一种重要表示方式相结合的开创性尝试。为了有效地将占用信息编码为大语言模型的输入，并解决与占用相关的类别不平衡问题，研究提出了运动分离变分自编码器（MS-VAE）。

新基准！威斯康星大学开源Ultra-AV：统一自动驾驶纵向轨迹数据集

摘要自动驾驶车辆在交通运输领域展现出巨大潜力，而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足，从而限制了有效的性能度量分析和模型开发。本研究针对这些挑战，构建了一个（Ultra-AV），用于分析自动驾驶汽车的微观纵向驾驶行为。

检测&OCC双SOTA！Doracamom实现首个LV多模态融合的统一多任务感知算法框架~

写在前面&笔者的个人理解自动驾驶技术是现代交通革命的前沿，备受关注。自动驾驶系统通常包括环境感知、轨迹预测和规划控制等组件，以实现自动驾驶功能。准确的 3D 感知是自动驾驶系统的基础，主要侧重于 3D目标检测和语义占用预测任务。

ICLR 2025 | Diffusion Planner: 基于扩散模型的自动驾驶规划算法，nuPlan SOTA!

本文介绍了清华大学联合毫末智行、自动化所、港中文、上海交大、上海人工智能实验室的发表于ICLR 2025的最新研究成果《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》。该算法创新性地设计了基于 Diffusion Transformer 的自动驾驶规划模型架构，高效处理复杂场景输入，并联合建模周车运动预测与自车规划中的多模态驾驶行为，充分发挥扩散模型在闭环规划中的潜力，解决了现有基于学习的规划方法对后处理的严重依赖问题。此外，借助扩散模型的引导机制，模型在部署阶段能够灵活适应不同的驾驶需求，提高泛化能力与实用性。