自动驾驶
ICLR 2025 | Diffusion Planner: 基于扩散模型的自动驾驶规划算法,nuPlan SOTA!
本文介绍了清华大学联合毫末智行、自动化所、港中文、上海交大、上海人工智能实验室的发表于ICLR 2025的最新研究成果《Diffusion-based Planning for Autonomous Driving with Flexible Guidance》。 该算法创新性地设计了基于 Diffusion Transformer 的自动驾驶规划模型架构,高效处理复杂场景输入,并联合建模周车运动预测与自车规划中的多模态驾驶行为,充分发挥扩散模型在闭环规划中的潜力,解决了现有基于学习的规划方法对后处理的严重依赖问题。 此外,借助扩散模型的引导机制,模型在部署阶段能够灵活适应不同的驾驶需求,提高泛化能力与实用性。
2/10/2025 11:01:00 AM
新闻助手
关于自动驾驶,尤其是端到端自动驾驶:到底有哪些可能的量产技术路线?
0.1 什么是端到端? 首先定义端到端,当然有很多说法。 我觉得,起码说相对于分阶段而言,规划不只是根据感知和预测的结果,而是其隐特征。
2/10/2025 10:35:00 AM
南木
利用人工智能提升航空安全
人工智能在航空安全中的整合变得越来越重要,特别是随着空中交通的增长、人为错误问题的不断出现以及对飞行员需求的增加。 虽然航空旅行仍然是最安全的交通方式之一,但最近发生的悲剧事件和众多紧急事件凸显了采取更先进安全措施的必要性。 上周美国一架陆军UH-60黑鹰直升机与一架美国航空公司客机在华盛顿特区里根国家机场着陆后不久在空中发生致命碰撞,震惊了航空业。
2/10/2025 10:00:33 AM
AI情报室
Meta 首席 AI 科学家杨立昆最新观点:现有技术难以支撑家用机器人和自动驾驶汽车
要让AI理解并与物理世界互动,仍需重大技术突破。AI要赶上人类或动物,还需要很长的路要走。他表示,当前的AI在“操控语言”方面表现出色,但对物理世界的理解仍十分有限。
2/10/2025 8:31:27 AM
清源
轨迹预测新基准!清华开源Ultra-AV:统一自动驾驶纵向轨迹数据集
摘要自动驾驶车辆在交通运输领域展现出巨大潜力,而理解其纵向驾驶行为是实现安全高效自动驾驶的关键。 现有的开源AV轨迹数据集在数据精炼、可靠性和完整性方面存在不足,从而限制了有效的性能度量分析和模型开发。 本研究针对这些挑战,构建了一个(Ultra-AV),用于分析自动驾驶汽车的微观纵向驾驶行为。
2/7/2025 10:17:55 AM
Hang Zhou等
世界模型会是L3自动驾驶的唯一解吗?2025 技术展望~
三维空间占有率(3D Occupancy)预测的目的是预测三维空间中的每个体素是否被占有,如果被占有,则对应的体素将被标记。 3D Semantic Occupancy是在三维空间内同时编码占用状态和语义信息,成为描述自动驾驶 3D 场景的一种极具吸引力的表示方式。 而自动驾驶世界模型(World Model)具备对真实物理世界的理解能力,基于一些历史信息/状态,能够预测未来时刻的场景变化甚至agents的状态变化。
1/10/2025 9:05:00 AM
SafeDrive:大语言模型实现知识驱动和数据驱动的风险-敏感决策
24年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。 自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。 然而,确保动态、高风险环境中的安全并管理,对安全至关重要的长尾事件仍然是一项重大挑战。
1/9/2025 9:38:25 AM
黄浴
顶刊JFR最新ROLO-SLAM开源:专为复杂地形下地面车辆的位姿漂移问题进设计
本文经3D视觉之心公众号授权转载,转载请联系出处。 解决垂直方向漂移定位在自动驾驶背景下至关重要。 它是安全高效导航的基础模块,使车辆能够准确地确定其在环境中的位置。
1/8/2025 9:50:00 AM
3D视觉之心
解放人工标注!理想多模态框架UniPLV:开放3D场景理解新SOTA
写在前面 & 笔者的个人理解开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别,而无需人工标注。 这对于真实世界的应用,如自动驾驶和虚拟现实等至关重要。 传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战,尤其3D语义标注,非常耗费人力和物力。
1/7/2025 9:11:07 AM
Yuru Wang等
InfiniCube:来自英伟达的高保真度高可控大规模动态3D驾驶场景生成方法
本文经3D视觉之心公众号授权转载,转载请联系出处。 InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models介绍:: 是由英伟达主导开发的一种新型3D生成方法,用于生成无界且可控制的动态3D驾驶场景。 InfiniCube 通过结合高清地图、车辆边界框和文本描述,利用最新的3D表示和视频模型技术,实现了大规模动态场景的生成。
1/3/2025 10:00:00 AM
ADFeed
当人工智能遇上市政债券市场:聊聊算法交易与AI预测
算法交易时至今日,“算法交易”一词已经被广泛使用。 但其真实含义却往往众说纷纭。 没关系,下面咱们就来捋捋这个概念的具体细节。
1/3/2025 8:00:00 AM
世界模型再进化!DrivingWorld:通过视频GPT构建自动驾驶世界模型(港科技&地平线)
写在前面 & 笔者的个人理解最近自回归(AR)生成模型的成功,如自然语言处理中的GPT系列,促使人们努力在视觉任务中复制这一成功。 一些工作试图通过构建能够生成逼真的未来视频序列和预测自车状态的基于视频的世界模型,将这种方法扩展到自动驾驶。 然而,先前的工作往往产生不令人满意的结果,因为经典的GPT框架旨在处理1D上下文信息,如文本,并且缺乏对视频生成所必需的空间和时间动态进行建模的固有能力。
1/2/2025 9:12:34 AM
Xiaotao Hu等
更真实的协同感知!EI-Drive:协同感知和融合通信特征的智驾平台
本文对EI-Drive: A Platform for Cooperative Perception with Realistic Communication Models进行介绍,EI-Drive将协同感知和通信延迟与误差融合,打造了一个更贴近车间通信(V2V Communication)真实部署环境的自动驾驶平台,为抗通信干扰的相关自动驾驶算法提供了测试和训练的平台。 项目详情:::,协同感知(Cooperative perception)得到了越来越多的关注,它使多个车辆或RSU能够共享传感器数据,从而增强其对环境的感知。 这种方法对克服传感器遮挡、视野受限以及噪声等限制尤为重要,这些限制可能导致障碍物的遗漏或决策上的致命错误。
12/31/2024 9:30:00 AM
自动驾驶之心
中科院最新DrivingGPT:利用多模态自回归方法统一驾驶世界模型和规划双任务!
写在前面&笔者的个人理解目前,驾驶世界模型已获得了来自工业界和学术界的广泛关注,因为基于模型的搜索和规划被广泛认为是实现人类级智能的重要途径。 这些模型有多种用途,包括训练数据增强、稀有场景生成。 大多数当前世界模型都是通过微调现有的扩散模型来开发的,利用视频生成基础模型的泛化能力。
12/31/2024 9:10:00 AM
自动驾驶之心
AAAI 2025 | 合成数据助力自驾点云异常检测新SOTA
论文信息论文题目:LiON: Learning Point-wise Abstaining Penalty for LiDAR Outlier DetectioN Using Diverse Synthetic Data论文发表单位:清华大学, 厦门大学,滴滴出行, 香港中文大学-深圳论文地址::。 然而,由于点云不像图像那样具有丰富的语义信息,在点云中这个识别异常点是一项极具挑战性的任务。 本工作从两个方面缓解了点云缺乏语义信息对异常点感知的影响:1) 提出了一种新的学习范式,使模型能够学习更鲁棒的点云表征,增强点与点之间的辨别性;2) 借助额外的数据源,ShapeNet,提出了一套可以生成多样且真实伪异常的方法。
12/27/2024 10:00:00 AM
自动驾驶之心
港科技最新DrivingRecon:可泛化自动驾驶4D重建新SOTA!
写在前面&笔者的个人理解从这一两年发表的论文数量可以看出,自动驾驶街景的重建与仿真备受关注,由此构建的自动驾驶仿真器对corner case的生成以及端到端模型的闭环评估/测试都非常重要,本次分享的是一篇关于自动驾驶场景4D重建的工作DrivingRecon。 论文链接: : ,比较具有代表性的是StreetGaussian,OmniRe这一类借助3D bbox将静态背景和动态物体解耦的框架,后来又出现了使用4D NeRF学习动态信息的方法,虽然取得了不错的效果,但这些方法都有一个共性,就是需要不断的训练来进行重建,即每个场景训练一个模型,非常耗时。 因此作者提出了一种可泛化的自动驾驶4D重建模型DrivingRecon。
12/26/2024 9:17:27 AM
自动驾驶之心
了解世界还是预测未来?一场关于自动驾驶世界模型的祛魅(清华最新综述)!
写在前面 & 笔者的个人理解清华大学最新的综述。 由于多模态大语言模型(如GPT-4)和视频生成模型(如Sora)的进步,世界模型的概念受到了极大的关注,这是追求通用人工智能的核心。 这项调查对世界模型的文献进行了全面的回顾。
12/25/2024 9:50:00 AM
自动驾驶之心
Occ预测最新SOTA!清华团队提出基于高斯世界模型的GaussianWorld算法~
写在前面&笔者的个人理解以视觉信息作为输入的3D占用预测任务最近因其在自动驾驶中的关键应用而受到来自工业界和学术界的广泛关注。 3D占用预测任务旨在根据视觉输入估计 3D 环境中每个体素的占用状态和语义标签。 该任务提供了更细粒度的场景语义和结构描述,这对于开发安全且强大的自动驾驶系统非常重要。
12/24/2024 10:30:00 AM
自动驾驶之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型