千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

进入到 2025 年,视频生成(尤其是基于扩散模型)领域还在不断地「推陈出新」,各种文生视频、图生视频模型展现出了酷炫的效果。其中,长视频生成一直是现有视频扩散的痛点。

近期,MIT 团队火遍外网的新论文《History-guided Video Diffusion》提出了一种全新算法 Diffusion Forcing Transformer(DFoT),在不改动原有架构的情况下就能让模型稳定输出比之前近 50 倍、近千帧长的视频

图片

  • 论文地址:https://arxiv.org/abs/2502.06764

  • 项目主页:https://boyuan.space/history-guidance/

该算法生成的视频如此之长,以至于只能截短并降低帧率才能放下。我们先来一睹生成视频的效果。千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

在现有的视频扩散模型中,无分类器引导(Classifier-free Guidance, CFG) 已被广泛应用于提升采样质量。然而,目前的视频模型通常只使用第一帧进行引导,而忽略了其他历史帧的重要性。作者的研究发现:历史信息才是提升视频生成质量的关键因素

因此,通过在去噪过程中混合长历史模型和短历史模型的不同预测,论文提出了一系列「历史引导」算法 (History Guidance),显著提升了视频扩散模型的质量、生成长度、鲁棒性与可组合性。

图片

在 X 上,论文共同一作 Boyuan Chen 的论文推介收获了十几万的阅读量、近千的点赞量。

图片

该工作刚一推出便受到了大量网友的赞誉,尤其看到了 DFoT 算法对视频扩散模型的影响。

图片

谷歌研究科学家、3d gaussian splating 一作 George Kopanas 转达并评论道,「一年前,连续的长期视频看起来是不可能的。而现在可以做到了!这项工作令人印象深刻,也提供了一个非常有趣的潜在想法。」

图片

方法概览

论文提出首先要训练一个能根据不同部分的历史进行去噪预测的视频模型。作者把不同历史定义如下:

  1. 不同长度的历史

  2. 历史的不同子集

  3. 特定频率域的历史。

这样的模型能够灵活地应对不同场景,例如图生视频或是延长已有的视频。遗憾的是,目前的视频扩散模型架构并不具备这种灵活性。如果简单地把历史帧编码后喂给 AdaLN 层并使用无分类器引导常见的随机丢弃法进行训练,实际效果会非常差。

相反,作者提出了一个极其简洁的算法 Diffusion Forcing Transformer (DFoT),在不改变架构的情况下就可以实现以上目标。

具体来说,作者提出把热门前作 Diffusion Forcing 中提出的噪声掩码 (noise as masking) 概念带入到视频生成架构中 —— 训练扩散模型时可以对每一帧使用不同的噪声强度。某一帧无噪声时相当于直接把该帧作为条件信息,而最强的噪声相当于完全移除这一帧的信息。给定一个既有的传统 DiT 架构,DFoT 只需要控制噪声掩码就可以训练任意子序列的预测任务。

作者提到,这样做保留了把现有模型直接微调成 DFoT 的可行性,并且 Adobe 公司已经在他们的视频大模型 CausVid 上验证过了 Diffusion Forcing 微调。

图片

         图(左):传统的视频模型要需要把历史信息编码进 AdaLN 层来兼容多历史帧。图(右):DFoT 架构仅用噪声掩码来区分历史帧和预测帧。

DFoT 一旦训练好就可以进行极其灵活的采样。如下图所示,如果要把前四帧作为条件,可以控制噪声掩码给前四帧 0 噪声(第一行);如果要进行无条件生成,可以把所有历史帧设为白噪声(第二行);如果要把短历史作为条件,可以掩码较早的历史帧。

图片

                                  DFoT 的采样和历史引导。

基于这种能力,作者引出了一系列「历史引导」算法。历史引导扩展了无分类起引导的概念,不仅在采样过程中组合有条件模型和无条件模型,还能通过加权去噪组合多重不同的历史条件。其中最简单的版本 (HG-v) 已经能大幅提高视频的质量,较为先进一点的跨时间历史采样 (Temporal History Guidance) 和跨频率域历史采样 (Fractional History Guidance) 更是分别增强了鲁棒性和动作幅度。

实验结果

作者进行了一系列实验来分别验证 DFoT 架构和历史引导。

首先,在经典的 Kinetics 600 数据集上,DFoT 超过了所有同架构下的视频扩散算法,并仅使用学术届的计算就和谷歌闭源大模型的结果打成平手。

不光如此,DFoT 是可以用任意长度的历史生成视频的,并不像其他算法一样在训练时就要指定特定历史长度。作者还特意验证了从经典扩散算法微调而来的 DFoT 模型,发现一样能获得出色的效果。

图片

                              无历史引导下 DFoT 的效果。

接下来,作者开始验证结合了历史引导的 DfoT。

在 kinetics600 上,原有的任务是给定前 6 帧预测下面 11 帧。由于 DFoT 极其稳定,作者直接把 11 帧拓展到了 64 帧,并在 FVD 和 vBench 上大幅超过了之前的模型。同时,文中提出的 HG-f 可以在保持稳定性的情况下避免模型生成静止的画面。

图片                               kinetics 上的对比。

在 RealEstate10K 数据集上,论文更是断崖式领先:在此之前,大部分算法只能在该数据集上做到给定开头结尾去插值中间帧,两个最强闭源模型 LVSM 和 4DiM 的在给定第一帧预测视频的情况下最多只能生成二三十帧。

而 Diffusion Forcing Transformer 和历史引导直接做到了单图生成近一千帧,并且提供了全套开源和 Huggingface 展示。

图片

                                DFoT 可以在 RealEstate10K 上单图生成近千帧。

总结

论文提出了 Diffusion Forcing Transformer (DFoT),一个能用任何历史帧作为条件的视频扩散架构。DFoT 让历史引导 (History Guidance) 成为了可能,使得视频质量和长度都大幅增加。论文还涉及了大量其他内容,例如数学证明,鲁棒性,组合性和机器人实验等近四十页。

作者提供的开源实现详细提供了复现的所有步骤,并且在 Huggingface 上提供了在线体验,感兴趣的读者可以直接根据论文主页的链接在浏览器里直接验证论文效果。

Huggingface 地址:https://huggingface.co/spaces/kiwhansong/diffusion-forcing-transformer

此外,为了方便读者们进一步学习了解该论文,我们邀请到了论文共同一作、MIT计算机系四年级博士生陈博远于北京时间2月27日20:00直播解读该研究,欢迎感兴趣的读者预约观看。千帧长视频时代到来!MIT全新扩散算法让任意模型突破时长极限

分享嘉宾简介:陈博远是麻省理工大学计算机系四年级的博士生,师从Vincent Sitzmann教授和机器人大牛Russ Tedrake教授。陈博远的研究兴趣是世界模型,基于模型的强化学习与具身智能,他希望通过在大视频模型来解决机器人动作规划的问题,并在视觉领域上复现大语言模型的推理和自我提升。陈博远之前在Deepmind和Google X实习过,著有SpatialVLM, Diffusion Forcing等论文。

本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。

图片

相关资讯

无限生成视频,还能规划决策,扩散强制整合下一token预测与全序列扩散

当前,采用下一 token 预测范式的自回归大型语言模型已经风靡全球,同时互联网上的大量合成图像和视频也早已让我们见识到了扩散模型的强大之处。近日,MIT CSAIL 的一个研究团队(一作为 MIT 在读博士陈博远)成功地将全序列扩散模型与下一 token 模型的强大能力统合到了一起,提出了一种训练和采样范式:Diffusion Forcing(DF)。论文标题:Diffusion Forcing:Next-token Prediction Meets Full-Sequence Diffusion论文地址:::,

讨论下一个token预测时,我们可能正在走进陷阱

自香农在《通信的数学原理》一书中提出「下一个 token 预测任务」之后,这一概念逐渐成为现代语言模型的核心部分。最近,围绕下一个 token 预测的讨论日趋激烈。然而,越来越多的人认为,以下一个 token 的预测为目标只能得到一个优秀的「即兴表演艺术家」,并不能真正模拟人类思维。人类会在执行计划之前在头脑中进行细致的想象、策划和回溯。遗憾的是,这种策略并没有明确地构建在当今语言模型的框架中。对此,部分学者如 LeCun,在其论文中已有所评判。在一篇论文中,来自苏黎世联邦理工学院的 Gregor Bachmann

Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了

Stable Diffusion 3 和 Sora 一样采用了 diffusion transformer 架构。继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。以下是一些官方示例:提示:史诗般的动漫作品,一位巫师在夜晚的山顶上向漆黑的