驶向将来,首个多视图预计+计划主动驾驭天下模型来了

Drive-WM 模型通过多视图天下模型,能够想象不同计划门路的将来情景,并根据视觉预计获取相应的奖惩反馈,从而优化当前的门路选择,为主动驾驭系统的保险平安供给了保障。近期,天下模型的概念引发了火热浪潮,而主动驾驭领域岂能隔岸观「火」。来自中科院主动化所的团队,初次提出了一种名为 Drive-WM 的全新多视图天下模型,旨在增强端到端主动驾驭计划的保险平安性。网站:: CVPR2023 主动驾驭的研讨会上,特斯拉和 Wayve 两大科技巨头狂秀黑科技,一种名为「生成式天下模型」的全新概念随之火爆主动驾驭领域。Wayve 更

Drive-WM 模型通过多视图天下模型,能够想象不同计划门路的将来情景,并根据视觉预计获取相应的奖惩反馈,从而优化当前的门路选择,为主动驾驭系统的保险平安供给了保障。

近期,天下模型的概念引发了火热浪潮,而主动驾驭领域岂能隔岸观「火」。来自中科院主动化所的团队,初次提出了一种名为 Drive-WM 的全新多视图天下模型,旨在增强端到端主动驾驭计划的保险平安性。

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

网站:https://drive-wm.github.io

论文链接:https://arxiv.org/abs/2311.17918

首个多视图预计和计划的主动驾驭天下模型

在 CVPR2023 主动驾驭的研讨会上,特斯拉和 Wayve 两大科技巨头狂秀黑科技,一种名为「生成式天下模型」的全新概念随之火爆主动驾驭领域。Wayve 更是发布了 GAIA-1 的生成式 AI 模型,揭示了令人震撼的视频场景生成本领。而最近,中科院主动化所的研究者们也提出了一个新的主动驾驭天下模型 ——Drive-WM,初次完成了多视图预计的天下模型,与当下主流的端到端主动驾驭计划器无缝结合。

Drive-WM 应用了 Diffusion 模型的富强生成本领,能够生成逼真的视频场景。

想象一下,你正在开车,而你的车载系统正在根据你的驾驭习惯和路况预计将来的发展,并生成相应的视觉反馈来指导轨迹门路的选择。这种预见将来的本领和计划器相结合,将极大地提高主动驾驭的保险平安性!

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

基于多视图天下模型的预计和计划。

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

天下模型与端到端主动驾驭的结合晋升驾驭保险平安性

Drive-WM 模型初次将天下模型与端到端计划相结合,为端到端主动驾驭的发展打开了新的篇章。在每个时间步上,计划器可以借助天下模型预计将来可能发生的情景,再应用图像奖励函数全面评估。

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

基于天下模型的端到端轨迹计划树

选择最优估计,扩展计划树,完成更保险平安、有效的计划。

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

Drive-WM 开创性地探索了天下模型在端到端计划中的两种应用:

1. 揭示了天下模型在面临 OOD 场景时的鲁棒性。作家通过对比实验发现了目前的端到端计划器在面临 OOD 情况时的表现并不理想。

作家给出了以下图片,当对初始位置进行轻微的横向偏移扰动后,目前的端到端计划器就难以输出合理的计划门路。

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

端到端计划器在面临 OOD 情况时难以输出合理的计划门路。

Drive-WM 的富强生成本领为解决 OOD 问题供给了新的思路。作家应用生成的视频来微调计划器,从 OOD 数据中进行学习,使得计划器在面临这样的场景时可以拥有更好的性能。

2. 揭示了引入将来场景评估对于端到端计划的晋升作用

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

如何构建多视图的视频生成模型

多视图视频生成的时空一致性一直以来都是一个具有挑战性的问题。Drive-WM 通过引入时序层的编码来扩展视频生成的本领,并通过视图分解建模的方式完成多视图的视频生成。这种视图分解的生成方式可以极大地晋升视图之间的一致性。

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

Drive-WM 整体模型设计

高质量的视频生成与可控性

Drive-WM 不仅完成了高质量的多视图视频生成,而且具有出色的可控性。Drive-WM 还供给了多种控制选项,可以通过文本、场景布局、运动信息来控制多视图视频的生成,也为将来的神经仿真器供给了新的可能性。

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

比如使用文本来改变天气和光照:

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

比如行人的生成和前景的编辑:

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

应用速度和方向的控制:

驶向将来,首个多视图预计+计划主动驾驭天下模型来了驶向将来,首个多视图预计+计划主动驾驭天下模型来了

稀有事件的生成,例如路口掉头和开进侧方草丛:

驶向将来,首个多视图预计+计划主动驾驭天下模型来了

结语

Drive-WM 不仅揭示了其富强的多视图视频生成本领,也揭示了天下模型与端到端驾驭模型相结合的巨大潜力。相信在将来,天下模型可以帮助完成更保险平安、稳定、可靠的端到端主动驾驭系统。

给TA打赏
共{{data.count}}人
人已打赏
应用

一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制

2023-12-4 11:12:00

应用

任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2

2023-12-4 11:43:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索