国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成范畴的一次重大突破。Sora 鉴于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。为什么 Sora 坚持利用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。这项工作由

2 月 16 日，OpenAI Sora 的发布无疑标志着视频生成范畴的一次重大突破。Sora 鉴于 Diffusion Transformer 架构，和市面上大部分主流方法（由 2D Stable Diffusion 扩展）并不相同。

为什么 Sora 坚持利用 Diffusion Transformer，其中的原因从同时期发表在 ICLR 2024（VDT: General-purpose Video Diffusion Transformers via Mask Modeling）的论文可以窥见一二。

这项工作由中国人民大学研究团队主导，并与加州大学伯克利分校、香港大学等进行了合作，最早于 2023 年 5 月公开在 arXiv 网站。研究团队提出了鉴于 Transformer 的 Video 统一生成框架 – Video Diffusion Transformer (VDT)，并对采用 Transformer 架构的原因给出了详细的解释。

国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

论文标题：VDT: General-purpose Video Diffusion Transformers via Mask Modeling

文章地址：Openreview: https://openreview.net/pdf?id=Un0rgm9f04

arXiv地址: https://arxiv.org/abs/2305.13311

项目地址：VDT: General-purpose Video Diffusion Transformers via Mask Modeling

代码地址：https://github.com/RERV/VDT

1．VDT 的优越性与创新之处

研究者表示，采用 Transformer 架构的 VDT 模型，在视频生成范畴的优越性体现在：

与主要为图像设计的 U-Net 不同，Transformer 能够借助其强大的 token 化和注意力体制，捕捉长期或不规则的光阴依赖性，从而更好地处置惩罚光阴维度。

只有当模型学习（或记忆）了世界知识（例如空间光阴关系和物理法则）时，才能生成与现实世界相符的视频。因此，模型的容量成为视频散布的一个关键组成部分。Transformer 已经被证明具有高度的可扩展性，比如 PaLM 模型就拥有高达 540B 的参数，而当时最大的 2D U-Net 模型大小仅 2.6B 参数（SDXL），这使得 Transformer 比 3D U-Net 更适合应对视频生成的挑战。

视频生成范畴涵盖了包括无前提生成、视频展望、插值和文本到图像生成等多项工作。以往的研究往往聚焦于单一工作，常常需要为下游工作引入专门的模块进行微调。此外，这些工作涉及多种多样的前提信息，这些信息在不同帧和模态之间可能有所不同，这就需要一个能够处置惩罚不同输出长度和模态的强大架构。Transformer 的引入能够实现这些工作的统一。

VDT 的创新之处，主要包括如下几个方面：

将 Transformer 技术应用于鉴于散布的视频生成，展现了 Transformer 在视频生成范畴的巨大潜力。VDT 的优势在于其出色的光阴依赖性捕获能力，能够生成光阴上连贯的视频帧，包括模拟三维对象随光阴的物理动态。

提出统一的时空掩码建模机制，使 VDT 能够处置惩罚多种视频生成工作，实现了技术的广泛应用。VDT 灵活的前提信息处置惩罚方式，如简单的 token 空间拼接，有效地统一了不同长度和模态的信息。同时，通过与该工作提出的时空掩码建模体制结合，VDT 成为了一个通用的视频散布工具，在不修改模型结构的情况下可以应用于无前提生成、视频后续帧展望、插帧、图生视频、视频画面补全等多种视频生成工作。

2．VDT 的网络架构详细解读

国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

VDT 框架与 Sora 的框架非常相似，包括以下几部分：

输出 / 输出特色。VDT 的目标是生成一个 F×H×W×3 的视频片段，由 F 帧大小为 H×W 的视频组成。然而，如果利用原始像素作为 VDT 的输出，尤其是当 F 很大时，将导致计算量极大。为解决这个问题，受潜伏散布模型（LDM）的启发，VDT 利用预训练的 VAE tokenizer 将视频投影到潜伏空间中。将输出和输出的向量维度减少到潜伏特色 / 噪声的 F×H/8×W/8×C，加速了 VDT 的训练和推理速度，其中 F 帧潜伏特色的大小为 H/8×W/8。这里的 8 是 VAE tokenizer 的下采样率，C 表示潜伏特色维度。

线性嵌入。遵循 Vision Transformer 的方法，VDT 将潜伏视频特色表示划分为大小为 N×N 的非重叠 Patch。

时空 Transformer Block。受到视频建模中时空自注意力成功的启发，VDT 在 Transformer Block 中插入了一个光阴注意力层，以获得光阴维度的建模能力。具体来说，每个 Transformer Block 由一个多头光阴注意力、一个多头空间注意力和一个全连接前馈网络组成，如上图所示。

对比 Sora 最新发布的技术报告，可以看到 VDT 和 Sora 在实现细节上仅存在一些细微差别。

首先，VDT 采用的是在时空维度上分别进行注意力体制处置惩罚的方法，而 Sora 则是将光阴和空间维度合并，通过单一的注意力体制来处置惩罚。这种分离注意力的做法在视频范畴已经相当常见，通常被视为在显存限制下的一种妥协选择。VDT 选择采用分离注意力也是出于计算资源有限的考虑。Sora 强大的视频动态能力可能来自于时空整体的注意力体制。

其次，不同于 VDT，Sora 还考虑了文本前提的融合。之前也有鉴于 Transformer 进行文本前提融合的研究（如 DiT），这里猜测 Sora 可能在其模块中进一步加入了交叉注意力体制，当然，直接将文本和噪声拼接作为前提输出的形式也是一种潜伏的可能。

在 VDT 的研究进程中，研究者将 U-Net 这个常用的基础骨干网络替换为 Transformer。这不仅验证了 Transformer 在视频散布工作中的有效性，展现了便于扩展和增强连续性的优势，也引发了他们对于其潜伏价值的进一步思考。

随着 GPT 模型的成功和自回归（AR）模型的流行，研究者开始探索 Transformer 在视频生成范畴的更深层次应用，思考其是否能为实现视觉智能提供新的途径。视频生成范畴有一个与之密切相关的工作 —— 视频展望。将展望下一个视频帧作为通往视觉智能的路径这一想法看似简单，但它实际上是许多研究者共同关注的问题。

鉴于这一考虑，研究者希望在视频展望工作上进一步适配和优化他们的模型。视频展望工作也可以视为前提生成，这里给定的前提帧是视频的前几帧。VDT 主要考虑了以下三种前提生成方式：

国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

自适应层归一化。实现视频展望的一种直接方法是将前提帧特色整合到 VDT Block 的层归一化中，类似于我们如何将光阴信息整合到散布过程中。

交叉注意力。研究者还探索了利用交叉注意力作为视频展望方案，其中前提帧用作键和值，而噪声帧作为查询。这允许将前提信息与噪声帧融合。在进入交叉注意力层之前，利用 VAE tokenizer 提取前提帧的特色并 Patch 化。同时，还添加了空间和光阴位置嵌入，以帮助我们的 VDT 学习前提帧中的对应信息。

Token 拼接。VDT 模型采用纯粹的 Transformer 架构，因此，直接利用前提帧作为输出 token 对 VDT 来说是更直观的方法。研究者通过在 token 级别拼接前提帧（潜伏特色）和噪声帧来实现这一点，然后将其输出到 VDT 中。接下来，他们将 VDT 的输出帧序列分割，并利用展望的帧进行散布过程，如图 3 (b) 所示。研究者发现，这种方案展示了最快的收敛速度，与前两种方法相比，在最终结果上提供了更优的表现。此外，研究者发现即使在训练过程中利用固定长度的前提帧，VDT 仍然可以接受任意长度的前提帧作为输出，并输出一致的展望特色。

在 VDT 的框架下，为了实现视频展望工作，不需要对网络结构进行任何修改，仅需改变模型的输出即可。这一发现引出了一个直观的问题：我们能否进一步利用这种可扩展性，将 VDT 扩展到更多样化的视频生成工作上 —— 例如图片生成视频 —— 而无需引入任何额外的模块或参数。

通过回顾 VDT 在无前提生成和视频展望中的功能，唯一的区别在于输出特色的类型。具体来说，输出可以是纯噪声潜伏特色，或者是前提和噪声潜伏特色的拼接。然后，研究者引入了 Unified Spatial-Temporal Mask Modeling 来统一前提输出，如下图 4 所示：

国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

3．VDT 的性能评测

通过上述方法，VDT 模型不仅可以无缝地处置惩罚无前提视频生成和视频展望工作，还能够通过简单地调整输出特色，扩展到更广泛的视频生成范畴，如视频帧插值等。这种灵活性和可扩展性的体现，展示了 VDT 框架的强大潜力，为未来的视频生成技术提供了新的方向和可能性。

国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

有趣的是，除 text-to-video 外，OpenAI 也展示了 Sora 非常惊艳的其他工作，包括鉴于 image 生成，前后 video predict 以及不同 video clip 相融合的例子等，和研究者提出的 Unified Spatial-Temporal Mask Modeling 所支持的下游工作非常相似；同时在参考文献中也引用了 kaiming 的 MAE。所以，这里猜测 Sora 大概率底层也利用了类 MAE 的训练方法。

研究者同时探索了生成模型 VDT 对简单物理规律的模拟。他们在 Physion 数据集上进行实验，VDT 利用前 8 帧作为前提帧，并展望接下来的 8 帧。在第一个示例（顶部两行）和第三个示例（底部两行）中，VDT 成功模拟了物理过程，包括一个沿抛物线轨迹运动的球和一个在平面上滚动并与圆柱体碰撞的球。在第二个示例（中间两行）中，VDT 捕捉到了球的速度 / 动量，因为球在碰撞圆柱体前停了下来。这证明了 Transformer 架构是可以学习到一定的物理规律。

国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

VDT 对网络结构进行部分消融。可以发现模型性能和 GFlops 强相关，模型结构本身的一些细节反而影响不是很大，这个和 DiT 的发现也是一致的。

研究者还对 VDT 模型进行了一些结构上的消融研究。结果表明，减小 Patchsize、增加 Layers 的数量以及增大 Hidden Size 都可以进一步提高模型的性能。Temporal 和 Spatial 注意力的位置以及注意力头的数量对模型的结果影响不大。在保持相同 GFlops 的情况下，需要一些设计上的权衡，总体而言，模型的性能没有显著差异。但是，GFlops 的增加会带来更好的结果，这展示了 VDT 或者 Transformer 架构的可扩展性。

VDT 的测试结果证明了 Transformer 架构在处置惩罚视频数据生成方面的有效性和灵活性。由于计算资源的限制，VDT 只在部分小型学术数据集上进行了实验。我们期待未来研究能够在 VDT 的基础上，进一步探索视频生成技术的新方向和应用，也期待中国公司能早日推出国产 Sora 模型。

{{userData.name}}已认证

国内高校打造类Sora模型VDT，通用视频散布Transformer被ICLR 2024接收

推出不到一个月，googleGemini翻车了

AAAI 2024平庸论文奖出炉：西安电子科技大学获奖

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！