AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究

AI生成视频,边生成边实时播放,再不用等了! Adobe与MIT联手推出自回归实时视频生成技术——CausVid。 思路就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。

AI生成视频,边生成边实时播放,再不用等了!

Adobe与MIT联手推出自回归实时视频生成技术——CausVid

思路就像从下载整部电影到直接观看流媒体的转变,在模型生成首帧画面后,视频便可以即时播放,后续内容则动态生成并无缝衔接。

AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究

如果你用过视频生成模型,一定对漫长的等待时间记忆深刻,生成一段10秒的视频,往往需要等待好几分钟才可以开始观看。

研究团队表示,这一延迟的根本原因在于:传统视频生成模型普遍采用的双向注意力机制,每一帧都需要参考前后帧的信息。

这就像写故事时必须先构思好整个剧情的所有细节才能动笔,在完整视频生成完毕前,你看不到任何画面。

为此,他们提出了一种全新的解决方案,通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型

实验中,CausVid基于自回归生成的特性,无需额外训练就能支持多种应用,生成速度和质量均显著超越现有方法。

图片

研究团队还表示将很快开源基于开源模型的实现代码。

图片

用双向教师监督单向自回归学生模型

如前所述,研究团队通过蒸馏预训练的双向扩散模型(DiT),构建自回归生成模型。

为了进一步提速实现实时视频生成,作者通过分布匹配蒸馏(DMD)将生成步骤从50步缩减到仅需4步。

图片

DMD是一种扩散模型蒸馏技术,将多步扩散模型转换为快速的单步生成器。DMD此前已在图像生成中取得成功,Adobe Firefly文生图的快速模式就是基于此技术。

本次研究团队将其创新性地应用到视频扩散模型中,实现了显著加速。

然而,自回归模型有一个核心难题——误差累积

每一帧视频都基于之前的帧生成,早期生成的任何细微缺陷都会被放大,导致生成的视频逐渐偏离预期轨迹。

为了解决这一问题,团队提出了非对称蒸馏策略。具体来说:

引入一个拥有未来信息的双向教师模型,在蒸馏训练阶段指导自回归的单向学生模型。这种教师-学生结构允许模型在生成未来帧时具备更强的精确度。

使用双向教师模型生成的的噪声-数据配对来预训练单向学生模型,提升其后蒸馏训练过程的稳定性。

在训练过程中,针对不同时间点的视频帧施加不同强度的噪声,这一策略使模型能够在测试时基于干净的已生成帧对当前帧进行去噪。

图片

通过这种创新性的非对称蒸馏方法,CausVid显著减少了自回归模型的误差累积问题,并生成了更高质量的视频内容。

这种非对称蒸馏形式中,学生模型和教师模型使用了不同的架构,而这只有在DMD风格的蒸馏中才可行。其他方法,例如渐进式蒸馏(Progressive Distillation)或一致性模型(Consistency Distillation),都要求学生模型和教师模型使用相同的架构。

下面是自回归扩散视频模型的误差累积示例(左图)和CausVid结果(右图)对比:

图片

实验效果如何?

实验中,CausVid表现惊艳:

  • 首帧生成延迟从3.5分钟降至1.3秒,提速170倍
  • 生成速度从0.6帧/秒提升至9.4帧/秒,提升16倍
  • 生成质量经VBench和用户调查验证,优于主流模型例如Meta的MovieGen和智谱的CogVideoX

图片

得益于单向注意力机制,CausVid完全支持在大语言模型中广泛应用的KV缓存推理技术,从而显著提升了生成效率。结合滑动窗口机制,CausVid突破了传统模型的长度限制。

尽管训练阶段仅接触过10秒的视频,CausVid依然能够生成长达30秒甚至更长的视频,其生成速度和质量均显著超越现有方法。

基于自回归生成的特性,CausVid无需额外训练就能支持多种应用:

  • 图片动画化:将静态图片自然转化为流畅视频,赋予画面生命力。
  • 实时视频风格转换:如将Minecraft游戏画面即时转换为真实场景。这一技术为游戏渲染带来全新思路:未来可能只需渲染基础3D几何信息,由AI实时补充纹理和光影
  • 交互式剧情生成:用户通过调整提示词,实时引导视频剧情发展,带来全新的创作体验。

图片

项目链接:https://causvid.github.io/

相关资讯

专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接基于模型的AI云时代

唐杰认为,超大规模预训练模型的出现,很可能改变信息产业格局,继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的 AI 时代。智源研究院致力于成为这样一个时代的引领者,集聚各方资源力量,构建一个超大规模智能模型技术生态和开放平台,供北京乃至全国的研究人员、开发者和企业使用。

硬科技起飞,这家成立仅三年的AI研究院已颇具国际风范

摘要:「我认为历史上多数突破性研究成果的出现都是偶然事件,而研究机构所有努力都是为了提升这类偶然事件发生的概率。」张宏江说道。他所牵头的「创新型研究院」,即是一种积极探索,短短3年已展现一派生机。

AI可解释性及其在蚂蚁安全领域的应用简介

可解释性相关算法作为蚂蚁集团提出的“可信AI”技术架构的重要组成部分,已大量应用于蚂蚁集团安全风控的风险识别、欺诈举报审理等场景,取得了一些阶段性的成果。本系列文章,我们将以风控领域具体应用为例,尤其关注领域专家经验和机器学习方法的交互结合,介绍蚂蚁集团特征可解释、图可解释、逻辑可解释等算法方案的探索和落地。专家点评:沈超 西安交通大学教授、网络空间安全学院副院长AI可解释性是可信AI的重要组成部分,已成为人工智能领域的研究热点。可解释性有助于用户理解系统的决策逻辑并建立信任,从而进一步加快AI技术在领域中的可信应