使用测试时间训练（TTT）生成一分钟视频

2025-04-18 08:47

译者 | 布加迪审校 | 重楼从文本生成视频已取得了长足的进展，但在制作更长的多场景故事时仍然会遇到瓶颈。虽然Sora、Veo和Movie Gen之类的扩散模型已提高了视觉质量的门槛，但它们通常仅限于 20秒以内的片段。真正的挑战是什么？

译者 | 布加迪

审校 | 重楼

从文本生成视频已取得了长足的进展，但在制作更长的多场景故事时仍然会遇到瓶颈。虽然Sora、Veo和Movie Gen之类的扩散模型已提高了视觉质量的门槛，但它们通常仅限于 20秒以内的片段。真正的挑战是什么？上下文。从一段文本生成一段一分钟的故事驱动型视频需要模型处理数十万个token，同时保持叙事和视觉的连贯性。英伟达、斯坦福大学、加州大学伯克利分校及其他机构的这项新研究应运而生，它引入了一种名为测试时间训练（TTT）的技术，以突破目前的限制。

长视频遇到的问题是什么？

Transformer（尤其是用于视频生成的Transformer）依赖自注意力机制。由于急剧增长的计算成本，这些机制面对序列长度很难有良好的扩展性。试图生成包含动态场景和一致角色的整整一分钟高分辨率视频，意味着需要处理30多万个token的信息。这使得模型效率低下，并且长时间运行后通常不连贯。

一些团队尝试通过使用Mamba或DeltaNet之类的循环神经网络（RNN）来规避这个问题，这类网络提供了线性时间上下文处理能力。然而，这些模型将上下文压缩到固定大小的隐藏状态中，从而限制了模型的表达能力。这就好比试图将整部电影塞进一张明信片里，有些细部根本就塞不进去。

TTT（测试时间训练）如何解决这个问题？

这篇论文基于这一理念：将RNN的隐藏状态转化为易于训练的神经网络本身，从而提高其表达能力。具体来说，论文作者提议使用TTT层，这本质上是小型的两层MLP，它们可以在处理输入序列时动态调整或适应。这些层在推理过程中使用自监督损失加以更新，这可以帮助它们动态地从视频不断变化的上下文中学习。

想象一下能够实时调整的模型：随着视频的逐帧展开，其内部记忆会进行调整，以便更好地理解角色、动作和故事情节。这就是TTT所能实现的。

使用测试时间训练（TTT）生成一分钟视频

使用测试时间训练生成一分钟视频的示例

将TTT 层添加到预训练的Transformer

将TTT层添加到预训练的 Transformer 中使其可以生成具有高度时间一致性和运动平滑度的一分钟视频。

提示：“杰瑞抓起一块奶酪，跑向老鼠洞，汤姆紧追不舍。他及时溜了进去，汤姆撞到了墙上。杰瑞躲在安全舒适的地方，在一张小桌子旁享用着战利品，开心地啃着，画面逐渐变暗。”

使用测试时间训练（TTT）生成一分钟视频

基准比较

按人类评估Elo分数来衡量，TTT-MLP在时间一致性、运动平滑度和整体美观度方面优于所有其他基准。

提示：“汤姆正开心地在餐桌旁啃苹果派。杰瑞看起来很想吃一个。杰瑞走到屋前门外，按响了门铃。汤姆过来开门时，杰瑞绕到厨房后面。杰瑞偷走了汤姆的苹果派。杰瑞拿着苹果派跑到老鼠洞里，而汤姆在后面紧紧追赶。眼看汤姆就要抓住杰瑞，杰瑞成功钻入了老鼠洞，汤姆一头撞到了墙上。”

使用测试时间训练（TTT）生成一分钟视频

局限性

生成的一分钟视频展现出概念验证具有的明显潜力，但仍然含有明显的伪影。

使用测试时间训练（TTT）生成一分钟视频

工作原理浅析

该系统基于预训练的Diffusion Transformer模型CogVideo-X 5B，该模型之前只能生成3 秒长的片段。研究人员将TTT层插入到模型中，并训练了它们（以及局部注意力模块），以处理更长的序列。

为了控制成本，自注意力机制被限制在3秒长的短片段上，而TTT层负责理解涉及这些片段的整体叙事。该架构还包含门控机制，以确保TTT层在训练初期不会降低性能。

使用测试时间训练（TTT）生成一分钟视频

他们通过双向处理序列并将视频分割成带注释的场景来进一步改进训练。比如说，他们使用故事板格式详细描述每个3秒的片段，包括背景、角色位置、摄像机角度和动作。

使用测试时间训练（TTT）生成一分钟视频

据集：不一样的《猫和老鼠》

为了在一致且易于理解的视觉领域进行研究，团队从7 个多小时的经典《猫和老鼠》动画片中精选出一个数据集。这些动画片被分解成多个场景，并精细地标注成 3 秒长的片段。通过专注于动画片数据，研究人员避免了照片写实的复杂性，并专注于叙事连贯性和运动动态。

标注人员为每个片段撰写了描述性段落，确保模型拥有丰富的结构化输入可供学习。这还便于多阶段训练——先使用 3 秒的片段，然后逐步增加到最长 63 秒的序列。

使用测试时间训练（TTT）生成一分钟视频

性能：它真的有效吗？

是的，效果出色。与Mamba 2、Gated DeltaNet 和滑动窗口注意力等领先的基准模型相比，TTT-MLP模型在100个视频的人工评估中平均比它们高出34个Elo点。

评估考虑以下因素：

•文本对齐：视频与提示的衔接程度

•运动自然度：角色运动的真实度

•美学：光照、色彩和视觉吸引力

•时间一致性：跨场景的视觉连贯性

TTT-MLP在运动和场景一致性方面尤为出色，能够保持动态动作的逻辑连续性，其他模型难以做到这一点。

伪影与局限性

尽管结果令人鼓舞，但仍然存在伪影。光照变化可能不一致，或者运动看起来漂浮不定（比如奶酪不自然地悬浮）。这些问题可能与基础模型CogVideo-X的局限性有关。另一个瓶颈是效率。虽然TTT-MLP的速度比完全自注意力模型快得多（快2.5 倍），但仍然比更精简的RNN方法（比如Gated DeltaNet）慢。话虽如此，TTT只需要进行微调，不用从头开始训练，这使得它在许多用例中更加实用。

这种方法的独特优势

•表达性记忆：TTT将RNN的隐藏状态转化为易于训练的网络，使其远比固定大小的矩阵更具表达力。

•适应性：TTT 层在推理过程中可以学习和调整，使其能够实时响应展开的视频。

•可扩展性：在资源充足的情况下，该方法可以扩展，以支持更长、更复杂的视频故事。

•实用的微调：研究人员仅对TTT层和门控进行微调，从而保持训练的轻量级和高效性。

未来方向

团队指出了几个扩展机会：

•优化TTT 内核以加快推理速度

•尝试使用更大或不同的骨干模型

•探索更复杂的故事情节和专题领域

•使用基于Transformer的隐藏状态而不是MLP，以提升表现力

TTT视频生成 vs MoCha vs Goku vs OmniHuman1 vs DreamActor-M1

下表解释了该模型与其他热门视频生成模型之间的差异：

模型	核心重点	输入类型	关键特性	与TTT有何不同
TTT（测试时间训练）	长格式视频生成，附有动态适应	文本故事板	-推理过程中可调整 -可处理超过60秒的视频 -连贯的多场景故事	为长视频设计，生成过程中可更新内部状态，以确保叙事一致性
MoCha	说话角色生成	文本+语音	-没有关键点或参照图像 -语音驱动型通体动画	专注于角色对话和表达，而不是全场景叙事视频
Goku	高质量视频和图像生成	文本和语音	-经过校正的流Transformer -支持多模态输入	针对质量和训练速度经过优化；并不为长格式叙事设计
OmniHuman1	逼真的人类动画	图像+音频+文本	-多重条件信号 -高分辨率化身	创建栩栩如生的人类；并不为长序列或动态场景转场建模
DreamActor- M1	图像到动画（脸/身体）	图像+驱动视频	-整体式运动模仿 -高帧一致性	将静态图像变动画；不使用文本或处理逐一场景的故事生成

结语

测试时间训练为解决长上下文视频生成问题提供了一个引人入胜的新视角。通过让模型在推理过程中学习和适应，它弥补了叙事方面的关键空白：在这个领域，连贯性、情感和节奏完全与视觉保真度同样重要。

无论你是生成式AI研究人员、创意技术专家，还是对AI生成的媒体的未来充满好奇的产品领导者，这篇文章都指向了从文本生成动态连贯视频的未来。

原文标题：Generating One-Minute Videos with Test-Time Training，作者：Nitika Sharma

ICCV 2023 Oral | 如何在开放世界进行测试段训练？基于动态原型扩展的自训练方法

提高模型泛化能力是推动基于视觉的感知方法落地的重要基础，测试段训练和适应（Test-Time Training/Adaptation）通过在测试段调整模型参数权重，将模型泛化至未知的目标域数据分布段。现有 TTT/TTA 方法通常着眼于在闭环世界的目标域数据下提高测试段训练性能。可是，在诸多应用场景中，目标域容易受到强域外数据 (Strong OOD) 数据的污染，例如不相关的语义类别数据。在该场景又可称为开放世界测试段训练 (OWTTT），在该场景下，现有 TTT/TTA 通常将强域外数据强行分类至已知类别，从而

9/13/2023 3:12:00 PM

机器之心

AI封神了！无剪辑一次直出60秒《猫和老鼠》片段，全网百万人围观

这两天，加州大学伯克利分校、斯坦福大学、英伟达等机构联合制作的《猫和老鼠》AI短片火了。论文共同一作 Karan Dalal 的帖子收获百万观看。我们先来欣赏下面两段视频，重温儿时的快乐。

4/9/2025 1:40:00 PM

机器之心

“万模裸奔”，DeepSeek正颠覆网络安全行业游戏规则

对于企业而言，AI既是提升生产力的强大工具，同时也为攻击者和恶意内部人员提供了“大杀器”。随着生成式AI（例如ChatGPT和DeepSeek）在企业和政府机构中的广泛应用和不安全部署，“万模裸奔”产生的数据安全风险已经到了失控的边缘。 2025年是AI安全元年，首席信息安全官（CISO）们必须提前做好准备，应对“万模裸奔”引发的数据安全危机。

2/21/2025 11:23:59 AM

佚名

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

使用测试时间训练（TTT）生成一分钟视频

长视频遇到的问题是什么？

TTT（测试时间训练）如何解决这个问题？

使用测试时间训练生成一分钟视频的示例

将TTT 层添加到预训练的Transformer

基准比较

局限性

工作原理浅析

据集：不一样的《猫和老鼠》

性能：它真的有效吗？

伪影与局限性

这种方法的独特优势

未来方向

TTT视频生成 vs MoCha vs Goku vs OmniHuman1 vs DreamActor-M1

结语

相关资讯

ICCV 2023 Oral | 如何在开放世界进行测试段训练？基于动态原型扩展的自训练方法

AI封神了！无剪辑一次直出60秒《猫和老鼠》片段，全网百万人围观

“万模裸奔”，DeepSeek正颠覆网络安全行业游戏规则