阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

你规定路线，Tora 来生成相应轨迹的视频。目前，扩散模型能够生成多样化且高质量的图像或视频。此前，视频扩散模型采用 U-Net 架构，主要侧重于合成有限时长（通常约为两秒）的视频，并且分辨率和纵横比受到固定限制。Sora 的出现打破了这一限制，其采用 Diffusion Transformer（DiT）架构，不仅擅长制作 10 到 60 秒的高质量视频，而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。可以说 Sora 是 DiT 架构最有利的证明，然而，基于 Transformer 的

你规定路线，Tora 来生成相应轨迹的视频。

目前，扩散模型能够生成多样化且高质量的图像或视频。此前，视频扩散模型采用 U-Net 架构，主要侧重于合成有限时长（通常约为两秒）的视频，并且分辨率和纵横比受到固定限制。

Sora 的出现打破了这一限制，其采用 Diffusion Transformer（DiT）架构，不仅擅长制作 10 到 60 秒的高质量视频，而且还因其生成不同分辨率、各种纵横比、且遵守实际物理定律的能力而脱颖而出。

可以说 Sora 是 DiT 架构最有利的证明，然而，基于 Transformer 的扩散模型在有效生成可控动作视频方面还未被充分探索。

针对这一问题，来自阿里的研究者提出了 Tora，这是第一个面向轨迹的 DiT 架构，它将文本、视觉和轨迹条件同时集成在一起以生成视频。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

Tora 的设计与 DiT 的可扩展性无缝契合，允许精确控制具有不同持续时间、宽高比和分辨率的视频内容。大量实验证明，Tora 在实现高运动保真度方面表现出色，同时还能细致模拟物理世界的运动。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

论文地址：https://arxiv.org/pdf/2407.21705

论文主页：https://ali-videoai.github.io/tora_video/

论文标题：Tora: Trajectory-oriented Diffusion Transformer for Video Generation

一艘老式的木制帆船沿着规定好的路线在迷雾笼罩的河流上平稳地滑行，周围是茂密的绿色森林。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

一条鲫鱼优雅地游过火星的红色岩石表面，鱼的轨迹向左，火星的轨迹向右。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

热气球沿着不同的轨迹升入夜空，一个沿着规定的斜线，另一个沿着有弯度的轨迹。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

两只可爱的小猫并排走在宁静的金色沙滩上。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

气泡沿着轨迹轻轻地漂浮在盛开的野花中。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

枫叶在清澈的湖面上颤动，映照着秋天的森林。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

山间的瀑布倾泻而下，主题、背景的运动都可以按照不同的路线运动。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

在 Tora 与其他方法的比较中，可以看出 Tora 生成的视频流畅度更高，更遵循轨迹，且物体不会存在变形的问题，保真度更好。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

方法介绍

Tora 采用 OpenSora 作为其 DiT 架构的基础模型，包含一个轨迹提取器 (TE，Trajectory Extractor)、时空 DiT（Spatial-Temporal DiT ）和一个运动引导融合器 (MGF，Motion-guidance Fuser) 。TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动 patch。MGF 将运动 patch 集成到 DiT 块中，以生成遵循轨迹的一致视频。图 3 概述了 Tora 的工作流程。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律

时空 DiT（ST-DiT）

ST-DiT 架构包含两种不同的块类型：空间 DiT 块 (S-DiT-B) 和时间 DiT 块 (T-DiT-B)，它们交替排列。S-DiT-B 包含两个注意力层，每个层按顺序执行空间自注意力 (SSA) 和交叉注意力，后面跟着一个逐点前馈层，用于连接相邻的 T-DiT-B 块。T-DiT-B 仅通过用时间自注意力 (TSA) 替换 SSA 来修改此架构，从而保持架构一致性。在每个块中，输入在经过规范化后，通过跳跃连接连接回块的输出。通过利用处理可变长度序列的能力，去噪 ST-DiT 可以处理可变持续时间的视频。

轨迹提取器

轨迹已被证明是一种更加用户友好的方法来控制生成视频的运动。然而，DiT 模型采用视频自编码器和 patch 化过程将视频转换为视频 patch。在这里，每个 patch 都是跨多个帧导出，因此直接采用帧间偏移是不合适的。为了解决这个问题，本文提出的 TE 将轨迹转换为运动 patch，运动 patch 与视频 patch 位于相同的潜在空间。

运动引导融合器

为了将基于 DiT 的视频生成与轨迹结合起来，本文探索了三种融合架构变体，将运动 patch 注入每个 ST-DiT 块。这些设计如图 4 所示。

阿里「轨迹可控版Sora」，告别「抽卡」，让视频生成更符合物理规律