自动驾驶
3D世界的新视角:以Object为中心的占用补全技术(港中文&小米)
写在前面 && 笔者理解传统的感知主要采用3D对象边界框(bboxes)来表征感知,但是这样的表示其实是有局限性的,它无法捕捉物体形状的精确细节,特别是对于具有不规则几何形状的物体,因为它本质上是一个包含物体的长方体。 比如下图1(a)所示,起重机被一个3D边界框完美包围。 但是,其相对于驾驶室的长突出部分在3D边界框内产生了大量未占用的空间。
12/24/2024 9:56:51 AM
自动驾驶之心
六大数据集全部SOTA!最新DriveMM:自动驾驶一体化多模态大模型(美团&中山大学)
写在前面 & 笔者的个人理解近年来,视觉-语言数据和模型在自动驾驶领域引起了广泛关注。 许多精心设计和标注的数据集用于微调多模态大模型,使模型不仅能理解视觉输入并生成文本回答,更能适用于自动驾驶多种应用场景。 由于驾驶场景的复杂多变以及驾驶行为的多样性,现有的自动驾驶模型和数据往往专注于单一场景和任务。
12/20/2024 9:39:05 AM
Zhijian Huang等
北航&清华联合发力!Stag-1:视频生成模型实现超逼真的4D驾驶场景算法!
写在前面&笔者的个人理解近年来,随着自动驾驶在感知、预测和规划方面取得的重大进步,端到端算法网络也取得了重大进展。 随着现如今这些技术的飞速进步,自动驾驶汽车的全面测试和验证也变得越来越重要。 然而,真实世界的车辆测试仍然耗时、费用昂贵,并且场景的覆盖范围也非常有限。
12/19/2024 10:20:53 AM
自动驾驶之心
万物皆可高斯!清华最新GaussianAD:以高斯为中心的端到端自动驾驶,完爆当前SOTA!
写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。 大多数现有方法采用密集表示(如鸟瞰图)或稀疏表示(如实例框)进行决策,这会在全面性和效率之间进行权衡。 本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯来广泛而稀疏地描述场景。
12/18/2024 10:30:00 AM
Wenzhao Zheng等
Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!
写在前面 & 笔者的个人理解西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。 近期生成 重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。 先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。
12/18/2024 9:34:13 AM
Dongxu Wei等
谷歌 CEO 皮查伊:特斯拉和 Waymo 是自动驾驶领域前两名
在纽约时报 DealBook 峰会上,谷歌首席执行官桑达尔・皮查伊(Sundar Pichai)高度评价特斯拉在自动驾驶领域的领先地位,并将其与 Waymo 并列为行业翘楚。
12/16/2024 2:59:26 PM
远洋
闭环仿真日新月异的今天,如何紧跟节奏?自动驾驶3DGS最新综述!
写在前面NeRF技术兴起于2020年,自此掀起了三维重建领域新一轮的革新风暴。 三年时间飞逝,新的算法和改进层出不穷,其视觉质量逐步提高突破。 并且在该技术的支持下,许多领域都取得了突破性的成果。
12/13/2024 10:20:00 AM
自动驾驶之心
超越所有SOTA!最新UniScene:视频点云Occ三大生成任务全部暴力提升~
本文是对 UniScene: Unified Occupancy-centric Driving Scene Generation的解读,UniScene 在Video、LiDAR 和Occupancy生成方面超过了所有之前的SOTA方法。 此外,UniScene生成的数据可显着增强下游任务,包括Occupancy预测、3D检测和BEV分割。 论文链接::、可控、带注释的训练数据对于自动驾驶至关重要。
12/12/2024 10:20:00 AM
自动驾驶之心
久等了!希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测(中科院最新综述)
写在前面大家好,很荣幸能受到自动驾驶之心的邀请来为大家分享我们的一篇关于单目车道线检测的综述。 与papaer里展现的顺序和内容可能有所不同,在这里笔者想更多地讲一讲本文的成文过程以及各类方法的发展史,因此对于各方法的详细介绍读者可以参考本文原文,这里不会花费过多笔墨来重述。 关于本文原文中提到的方法,以及更多未提到的方法的论文和代码均可在笔者构建的GitHub仓库里找到,笔者后续也会不断更新,欢迎大家关注,也欢迎业内同仁指正,共同探讨。
12/11/2024 10:55:05 AM
自动驾驶之心
无惧大平移!MMLab最新FreeSim:渐进迭代拿下3m平移新视角
写在前面 & 笔者的个人理解最新重建方面的工作是真多啊,基本上大家都在卷仿真重建。 今天分享MMLab最新的工作,提出了FreeSim。 一种用于自动驾驶的相机仿真方法。
12/10/2024 10:35:00 AM
Lue Fan等
多榜单SOTA!SplatAD:首个实现Lidar & 视觉重建大一统框架,仿真闭环再下一城~
写在前面&笔者的个人理解在实际部署之前,大规模测试对于确保自动驾驶汽车 (SDV) 等自主机器人的安全至关重要。 从收集的日志中生成数字孪生的数据驱动方法提供了一种可扩展的方式来构建多样化、逼真的测试仿真环境。 与成本高昂、耗时且受物理约束限制的实际测试不同,模拟可以快速、低成本地探索多种场景,有助于优化自动驾驶车辆的安全性、舒适性和效率。
12/10/2024 9:49:53 AM
自动驾驶之心
真实闭环拉满!浙大&华为发布全新闭环仿真工具HUGSIM
写在前面 & 笔者的个人理解在过去的几十年里,自动驾驶算法在感知、规划和控制方面取得了重大进展。 然而,评估单个组件并不能完全反映整个系统的性能,这突显了对更全面评估方法的需求。 这推动了HUGSIM的发展,这是一个闭环、真实和实时的仿真器,用于评估自动驾驶算法。
12/6/2024 9:47:13 AM
Hongyu Zhou等
北大王选最新OpenAD!助力自动驾驶迈向开放3D世界
写在前面 & 笔者的个人理解开放世界自动驾驶包括域泛化和开放词汇。 领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。 开放词汇是指识别训练中没有遇到的各种语义类别的能力。
12/4/2024 10:00:00 AM
自动驾驶之心
3DGS自监督预训练全新范式!VisionPAD:三大感知任务全部暴力涨点(港中文&华为)
写在前面 && 笔者理解虽然近一年端到端的自动驾驶发展火热,但是以多视角图像推导BEV视角和占用空间的感知技术引领的自动驾驶框架,仍然在很多企业中占据主体。 比如今天要分享的这篇,就是华为诺亚方舟实验室对BEV OCC的继续研究。 但是不得不说,这些模型在很大程度上依赖于精确的3D标注,而数据标注的高成本使得越来越多的研究人员和工程师开始关注预训练策略。
12/3/2024 9:49:07 AM
黄哲威 hzwer
大幅超越所有SOTA!地平线DiffusionDrive:生成式方案或将重塑端到端格局?
写在前面&笔者的个人理解近年来,由于感知模型的性能持续进步,端到端自动驾驶受到了来自工业界和学术界的广泛关注,端到端自动驾驶算法直接从原始传感器采集到的信息输入中学习驾驶策略。 这种基于数据驱动的方法为传统的基于规则的运动规划提供了一种可扩展且强大的替代方案,而传统的基于规则的运动规划通常难以推广到复杂的现实世界驾驶环境。 为了有效地从数据中学习驾驶过程,主流的端到端规划器通常从自车查询中回归出单模轨迹,如下图所示。
12/3/2024 9:36:52 AM
Bencheng Liao等
魔法降临!港中文MagicDriveDiT:暴力提升生成质量40%!
写在前面 & 笔者的个人理解扩散模型的快速发展极大地改善了视频合成,特别是在可控视频生成方面,这对自动驾驶等应用至关重要。 然而,现有的方法受到可扩展性和控制条件集成方式的限制,无法满足自动驾驶应用对高分辨率和长视频的需求。 本文介绍了一种基于DiT架构的新方法MagicDriveDiT,并解决了这些挑战。
11/28/2024 9:31:44 AM
Ruiyuan Gao等
专为自动驾驶而生!DeSiRe-GS:彻底摒弃3D框,动静态重建完美解耦(UC Berkeley最新)
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面 & 个人理解UC Berkeley最新的工作,提出了DeSiRe GS。 全新自监督高斯飞溅表示,可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。
11/27/2024 9:28:00 AM
Chensheng Peng等
闭环仿真杀器!DrivingSphere:理想提出直接构建高保真4D世界
写在前面&笔者的个人理解近年来,端到端自动驾驶算法取得了重大进展,准确评估这些模型是一项非常紧迫的任务。 为了安全、负责任地进行评估,必须有一个精确的模拟环境,准确反映现实世界的驾驶条件。 这个要求通常包括两个方面:一是高保真传感数据的生成,二是闭环反馈机制的实现。
11/26/2024 9:43:37 AM
Tianyi Yan等
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型