Drive-WM 模型通过多视图天下模型,能够想象不同计划门路的将来情景,并根据视觉预计获取相应的奖惩反馈,从而优化当前的门路选择,为主动驾驭系统的保险平安供给了保障。
近期,天下模型的概念引发了火热浪潮,而主动驾驭领域岂能隔岸观「火」。来自中科院主动化所的团队,初次提出了一种名为 Drive-WM 的全新多视图天下模型,旨在增强端到端主动驾驭计划的保险平安性。
网站:https://drive-wm.github.io
论文链接:https://arxiv.org/abs/2311.17918
首个多视图预计和计划的主动驾驭天下模型
在 CVPR2023 主动驾驭的研讨会上,特斯拉和 Wayve 两大科技巨头狂秀黑科技,一种名为「生成式天下模型」的全新概念随之火爆主动驾驭领域。Wayve 更是发布了 GAIA-1 的生成式 AI 模型,揭示了令人震撼的视频场景生成本领。而最近,中科院主动化所的研究者们也提出了一个新的主动驾驭天下模型 ——Drive-WM,初次完成了多视图预计的天下模型,与当下主流的端到端主动驾驭计划器无缝结合。
Drive-WM 应用了 Diffusion 模型的富强生成本领,能够生成逼真的视频场景。
想象一下,你正在开车,而你的车载系统正在根据你的驾驭习惯和路况预计将来的发展,并生成相应的视觉反馈来指导轨迹门路的选择。这种预见将来的本领和计划器相结合,将极大地提高主动驾驭的保险平安性!
基于多视图天下模型的预计和计划。
天下模型与端到端主动驾驭的结合晋升驾驭保险平安性
Drive-WM 模型初次将天下模型与端到端计划相结合,为端到端主动驾驭的发展打开了新的篇章。在每个时间步上,计划器可以借助天下模型预计将来可能发生的情景,再应用图像奖励函数全面评估。
基于天下模型的端到端轨迹计划树
选择最优估计,扩展计划树,完成更保险平安、有效的计划。
Drive-WM 开创性地探索了天下模型在端到端计划中的两种应用:
1. 揭示了天下模型在面临 OOD 场景时的鲁棒性。作家通过对比实验发现了目前的端到端计划器在面临 OOD 情况时的表现并不理想。
作家给出了以下图片,当对初始位置进行轻微的横向偏移扰动后,目前的端到端计划器就难以输出合理的计划门路。
端到端计划器在面临 OOD 情况时难以输出合理的计划门路。
Drive-WM 的富强生成本领为解决 OOD 问题供给了新的思路。作家应用生成的视频来微调计划器,从 OOD 数据中进行学习,使得计划器在面临这样的场景时可以拥有更好的性能。
2. 揭示了引入将来场景评估对于端到端计划的晋升作用
如何构建多视图的视频生成模型
多视图视频生成的时空一致性一直以来都是一个具有挑战性的问题。Drive-WM 通过引入时序层的编码来扩展视频生成的本领,并通过视图分解建模的方式完成多视图的视频生成。这种视图分解的生成方式可以极大地晋升视图之间的一致性。
Drive-WM 整体模型设计
高质量的视频生成与可控性
Drive-WM 不仅完成了高质量的多视图视频生成,而且具有出色的可控性。Drive-WM 还供给了多种控制选项,可以通过文本、场景布局、运动信息来控制多视图视频的生成,也为将来的神经仿真器供给了新的可能性。
比如使用文本来改变天气和光照:
比如行人的生成和前景的编辑:
应用速度和方向的控制:
稀有事件的生成,例如路口掉头和开进侧方草丛:
结语
Drive-WM 不仅揭示了其富强的多视图视频生成本领,也揭示了天下模型与端到端驾驭模型相结合的巨大潜力。相信在将来,天下模型可以帮助完成更保险平安、稳定、可靠的端到端主动驾驭系统。