突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

理论
12月20日
编辑

量子位

可控视频生成，对于自动驾驶技术而言，同样非常重要。比如，生成高质量、长时间且可控的高质量街景视频，可以满足开发自动驾驶应用的数据缺口。现在，香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋：推出MagicDriveDiT，重新定义自动驾驶视频生成的标准。

可控视频生成，对于自动驾驶技术而言，同样非常重要。

比如，生成高质量、长时间且可控的高质量街景视频，可以满足开发自动驾驶应用的数据缺口。

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

现在，香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋：推出MagicDriveDiT，重新定义自动驾驶视频生成的标准。

目前该工作同时支持昇腾Ascend NPU以及NVIDIA GPU训练和推理。

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

具体而言，MagicDriveDiT基于DiT架构设计。通过流匹配技术和渐进式训练策略，MagicDriveDiT不仅提升了系统的扩展能力，还能有效生成复杂场景。这一方法极大地提高了视频生成的质量，尤其是在生成高分辨率和长时间视频方面表现突出。

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

精确场景控制

先来看MagicDriverDiT的生成效果。

通过精确的场景控制，MagicDriveDiT可以生成许多少见的行驶路况。

比如无信号灯路口让行：

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

路边起步变道：

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

以及夜间行车等。

值得一提的是，MagicDriveDiT既支持单个物体的精确控制：

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

也支持复杂的自车3D轨迹控制。

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

MagicDriveDiT的整体设计框架

架构设计方面，首先，MagicDriveDiT将跨视角一致性模块引入STDiT3的基础模块中，提出了MVDiT模块来处理多视角视频合成。

其次，对于自动驾驶场景中常见的多种控制，MagicDriveDiT在STDiT3的基础上采用额外的控制分支以及交叉注意力分别处理不同的控制种类信号。

此前的视频生成都是基于2DVAE编码实现的，控制条件的空间编码模块并不适用于3DVAE的时空潜变量。针对现有方法在可扩展性和控制条件整合方面的不足，MagicDriveDiT采用空间-时间条件编码技术，实现了对时空潜变量的精确控制。这种方法使得生成的视频在视觉效果上更加逼真，能够满足自动驾驶应用对高质量街景视频的需求。

以下视频空间编码和时空编码对比，此前的视频控制方法并不适用于3DVAE的时空潜变量：

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

MagicDriveDiT提出的条件时空编码模块：

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

训练方法上，MagicDriveDiT发现，提高视频分辨率对于生成内容的质量提升最明显。

因此，MagicDriveDiT采用了分辨率优先的渐进式的训练策略，加速模型训练收敛，并且逐渐适配更高分辨率和更长的视频。此外，通过混合数据训练，MagicDriveDiT还实现了视频长度外推的能力，可以直接生成超越训练长度的视频。

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

△MagicDriveDiT 采用的渐进式训练策略

实验结果显示，MagicDriveDiT在生成真实街景视频方面的表现优于现有的其他方法，不仅在分辨率上有所突破，还在帧数上实现了显著提升，实现了前所未有的视频生成效果。

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

与相关工作的分辨率、时长对比结果如下：

突破自动驾驶视频生成极限：港中文&港科大&华为联手推出MagicDriveDiT

更多内容请见论文：https://arxiv.org/abs/2411.13807

项目地址：https://github.com/flymin/MagicDriveDiT

给TA打赏

共{{data.count}}人

人已打赏

数据模型训练

不会代码的独立开发者，除了学Cursor，还该会些什么？

2024-12-20 9:15:00

六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）

2024-12-20 9:39:05

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部