突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT

可控视频生成,对于自动驾驶技术而言,同样非常重要。 比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。 现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。

可控视频生成,对于自动驾驶技术而言,同样非常重要。

比如,生成高质量、长时间且可控的高质量街景视频,可以满足开发自动驾驶应用的数据缺口。

图片

现在,香港中文大学、香港科技大学和华为联手向这一长期挑战发起了冲锋:推出MagicDriveDiT,重新定义自动驾驶视频生成的标准。

目前该工作同时支持昇腾Ascend NPU以及NVIDIA GPU训练和推理。

突破自动驾驶视频生成极限:港中文&港科大&华为联手推出MagicDriveDiT

具体而言,MagicDriveDiT基于DiT架构设计。通过流匹配技术和渐进式训练策略,MagicDriveDiT不仅提升了系统的扩展能力,还能有效生成复杂场景。这一方法极大地提高了视频生成的质量,尤其是在生成高分辨率和长时间视频方面表现突出。

图片

精确场景控制

先来看MagicDriverDiT的生成效果。

通过精确的场景控制,MagicDriveDiT可以生成许多少见的行驶路况。

比如无信号灯路口让行:

图片

路边起步变道:

图片

以及夜间行车等。

值得一提的是,MagicDriveDiT既支持单个物体的精确控制:

图片

也支持复杂的自车3D轨迹控制。

图片

MagicDriveDiT的整体设计框架

架构设计方面,首先,MagicDriveDiT将跨视角一致性模块引入STDiT3的基础模块中,提出了MVDiT模块来处理多视角视频合成。

其次,对于自动驾驶场景中常见的多种控制,MagicDriveDiT在STDiT3的基础上采用额外的控制分支以及交叉注意力分别处理不同的控制种类信号。

此前的视频生成都是基于2DVAE编码实现的,控制条件的空间编码模块并不适用于3DVAE的时空潜变量。针对现有方法在可扩展性和控制条件整合方面的不足,MagicDriveDiT采用空间-时间条件编码技术,实现了对时空潜变量的精确控制。这种方法使得生成的视频在视觉效果上更加逼真,能够满足自动驾驶应用对高质量街景视频的需求。

以下视频空间编码和时空编码对比,此前的视频控制方法并不适用于3DVAE的时空潜变量:

图片

MagicDriveDiT提出的条件时空编码模块:

图片

训练方法上,MagicDriveDiT发现,提高视频分辨率对于生成内容的质量提升最明显。

因此,MagicDriveDiT采用了分辨率优先的渐进式的训练策略,加速模型训练收敛,并且逐渐适配更高分辨率和更长的视频。此外,通过混合数据训练,MagicDriveDiT还实现了视频长度外推的能力,可以直接生成超越训练长度的视频。

图片

△MagicDriveDiT 采用的渐进式训练策略

实验结果显示,MagicDriveDiT在生成真实街景视频方面的表现优于现有的其他方法,不仅在分辨率上有所突破,还在帧数上实现了显著提升,实现了前所未有的视频生成效果。

图片图片

与相关工作的分辨率、时长对比结果如下:

图片

更多内容请见论文:https://arxiv.org/abs/2411.13807

项目地址:https://github.com/flymin/MagicDriveDiT

相关资讯

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

关键点检测项目代码开源了!

作者:闫永强,算法工程师,Datawhale成员 本文通过自建手势数据集,利用YOLOv5s检测,然后通过开源数据集训练squeezenet进行手部关键点预测,最后通过指间的夹角算法来判断具体的手势,并显示出来。文章第四部分为用C 实现整体的ncnn推理(代码较长,可先马后看)一、YOLOV5训练手部检测训练及部署思路类似表情识别,需要将handpose数据集标签改成一类,只检测手部,简化流程,更易上手。此部分数据集来源格物钛  ,具体的效果如图:本教程所用训练环境:系统环境:Ubuntu16.04cuda版本:

5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」

内容一览:如果你正在学习如何创建或选择一个合适的数据集,那么这篇文章会给你一些实用的建议,帮助你在选择和创建数据集时做出明智的决策。 关键词:机器学习 数据集