世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果

近日,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,是首个利用世界模型增强 4D 驾驶场景重建效果的工作。 DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果,在 user study 实验中获得了超过 80% 的偏好投票,为走向空间智能和 4D 世界模型迈出了坚实的一步。 论文链接:::。

近日,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,是首个利用世界模型增强 4D 驾驶场景重建效果的工作。DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果,在 user study 实验中获得了超过 80% 的偏好投票,为走向空间智能和 4D 世界模型迈出了坚实的一步。

图片

  • 论文链接:https://arxiv.org/abs/2410.13571

  • 项目主页:https://drivedreamer4d.github.io/

  • 代码地址:https://github.com/GigaAI-research/DriveDreamer4D

闭环仿真技术是推动端到端自动驾驶系统发展的关键。目前的传感器仿真方法,如 NeRF 与 3DGS,主要依赖于训练数据分布,若训练数据不足,则这些方法在复杂驾驶操作(例如变道、加速或减速)的重建效果不佳。近来,自动驾驶世界模型(World Model)证明其可以生成丰富驾驶数据。在此背景下,本文提出了 DriveDreamer4D,是首个利用世界模型来提升自动驾驶场景 4D 重建质量的算法。

DriveDreamer4D 可以为驾驶场景提供丰富多样的视角(包括变道、加速和减速等)数据,以增加动态驾驶场景下的闭环仿真能力。

DriveDreamer4D 利用世界模型作为数据引擎,基于真实世界的驾驶数据合成新轨迹视频(例如变道场景)。如下图所示,DriveDreamer4D 不仅可以提升多种重建算法(PVG,S3Gaussian,Deformable-GS)的图像渲染质量,还可以提升驾驶前景(车辆)和背景(车道线)的时空一致性。

图片

DriveDreamer4D 的总体结构框图如下所示,轨迹生成模块(NTGM)用于调整原始轨迹动作,如转向角度和速度,以生成新的轨迹。这些新轨迹为提取结构化信息(如车辆 3D 框和背景车道线细节)提供了全新的视角。随后,基于世界模型的视频生成能力,并利用更新轨迹后得到的结构化信息作为控制条件,可以合成新轨迹的视频。最后,原始轨迹视频与新轨迹视频相结合,进行 4DGS 模型的优化。

图片

在实验中,如下第一列视频所示,可以看出多种传统算法(PVG, S3Gaussian,Deformable-GS )在变道场景下的车道线、天空、车辆都会模糊,甚至出现 “鬼影” 现象。而 DriveDreamer4D 可以提升多种重建算法在复杂变道场景下的视频渲染效果,不仅消除了 “鬼影”,而且提升了交通元素的渲染质量,车辆和车道线都更加清晰。世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果除了变道,在车辆变速场景下,传统算法(PVG,S3Gaussian,Deformable-GS)的表现能力也受到限制,如下第一列视频所示,这些算法在自车加速时,前方的车辆都出现了 “拖影” 现象。而经过 DriveDreamer4D 提升后,渲染的车辆的时空一致性更高。 世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果

在定量实验中,本文证明了 DriveDreamer4D 不仅可以提升多种重建算法 (PVG, S3Gaussian,Deformable-GS)的图像渲染质量 (如表 2),还可以提升车辆和车道线渲染的时空一致性(如表 1)。此外,本文还通过 user study(表 3)证明用户更加偏好 DriveDreamer4D 的渲染效果,获得了超过 80% 的投票率。

图片

                                 表 1 DriveDreamer4D 提升了车辆和车道线重建渲染的时空一致性

图片

                                                             表 2 DriveDreamer4D 提升了图像重建渲染质量

图片

                                   表 3 User study 证明用户更加偏好 DriveDreamer4D 的渲染效果

本项 DriveDreamer4D 工作是极佳科技研究团队之前 DriveDreamer 和 DriveDreamer-2 工作的延续。

DriveDreamer 是首个面向真实驾驶场景的世界模型,可以根据不同的控制条件生成自动驾驶周视视频,有效提升了 BEV 感知的性能;DriveDreamer-2 在此基础上,引入大语言模型,可以生成用户自定义的驾驶数据,进一步提升了长尾和 corner case 场景下的数据生成能力。针对端到端自动驾驶和闭环仿真对于场景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新轨迹视频(例如变道、加减速),从而大幅提升了多种 4DGS 算法的重建效果。

本篇论文的牵头完成单位为极佳科技,是一家空间智能公司,致力于将视频生成提升到 4D 世界模型,赋予 AI 大模型对于 4D 空间的理解、生成、常识和推理的能力,实现 4D 空间中的交互和行动,走向通用空间智能。通用空间智能对于影视游戏、元宇宙等虚拟空间的内容创作,以及自动驾驶、具身智能等物理空间的数据生成和认知推理能力,都有巨大的价值和作用。极佳科技是国内最早开始探索和布局世界模型和空间智能方向的公司,在物理空间和虚拟空间两方面都已取得显著的技术和商业进展,获得了行业广泛的认可。

相关资讯

Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型

世界模型,即通过预测未来的范式对数字世界和物理世界进行理解,是通往实现通用人工智能(AGI)的关键路径之一。在视频生成领域,OpenAI 发布的 Sora 引起了广泛关注,Sora 具有极强的仿真能力,可以展现出对物理世界的初步理解;视频生成领军企业 Runway 在技术博客中表示,文生视频系统 Gen-2 的下一代产品将会通过通用世界模型来实现。在自动驾驶领域,Tesla 和 Wayve 均表示在利用世界模型的预测未来特性构建其端到端自动驾驶系统。在更广泛的通用机器人智能领域,LeCun 多次在演讲中表示对世界模

这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎

Sora 炸场之后,视频生成持续广受关注,不断掀起新的热潮。近日,在奇绩创坛路演日上,世界模型公司「极佳科技」联合清华大学自动化系正式发布中国首个超长时长、高性价比、端侧可用的 Sora 级视频生成大模型「视界一粟 YiSu」,引起社会各界广泛的反响和关注。01 模型原生 16 秒,超长时长,超大运动,超强表现力;不止步于 DiT,自研的视频生成技术路线「视界一粟 YiSu」拥有模型原生的 16 秒超长时长,并可生成至 1 分钟以上;同时还拥有超大运动、超强表现力、懂物理世界等众多优势;更重要的是,YiSu 模型成

LeCun怒斥Sora是世界模型,自回归LLM太简化了

LeCun 对「世界模型」给出了最新定义。最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。英伟达高级研究科学家 Jim Fan 甚至断言:「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。「Sora 是世界模型」这种观点,让一直将「世界模型」作为研究重心的图灵奖得主 Yann LeCun 有些坐不住了。在 LeCun 看