译者 | 布加迪
审校 | 重楼
从文本生成视频已取得了长足的进展,但在制作更长的多场景故事时仍然会遇到瓶颈。虽然Sora、Veo和Movie Gen之类的扩散模型已提高了视觉质量的门槛,但它们通常仅限于 20秒以内的片段。真正的挑战是什么?上下文。从一段文本生成一段一分钟的故事驱动型视频需要模型处理数十万个token,同时保持叙事和视觉的连贯性。英伟达、斯坦福大学、加州大学伯克利分校及其他机构的这项新研究应运而生,它引入了一种名为测试时间训练(TTT)的技术,以突破目前的限制。
长视频遇到的问题是什么?
Transformer(尤其是用于视频生成的Transformer)依赖自注意力机制。由于急剧增长的计算成本,这些机制面对序列长度很难有良好的扩展性。试图生成包含动态场景和一致角色的整整一分钟高分辨率视频,意味着需要处理30多万个token的信息。这使得模型效率低下,并且长时间运行后通常不连贯。
一些团队尝试通过使用Mamba或DeltaNet之类的循环神经网络(RNN)来规避这个问题,这类网络提供了线性时间上下文处理能力。然而,这些模型将上下文压缩到固定大小的隐藏状态中,从而限制了模型的表达能力。这就好比试图将整部电影塞进一张明信片里,有些细部根本就塞不进去。
TTT(测试时间训练)如何解决这个问题?
这篇论文基于这一理念:将RNN的隐藏状态转化为易于训练的神经网络本身,从而提高其表达能力。具体来说,论文作者提议使用TTT层,这本质上是小型的两层MLP,它们可以在处理输入序列时动态调整或适应。这些层在推理过程中使用自监督损失加以更新,这可以帮助它们动态地从视频不断变化的上下文中学习。
想象一下能够实时调整的模型:随着视频的逐帧展开,其内部记忆会进行调整,以便更好地理解角色、动作和故事情节。这就是TTT所能实现的。
使用测试时间训练生成一分钟视频的示例
将TTT 层添加到预训练的Transformer
将TTT层添加到预训练的 Transformer 中使其可以生成具有高度时间一致性和运动平滑度的一分钟视频。
提示:“杰瑞抓起一块奶酪,跑向老鼠洞,汤姆紧追不舍。他及时溜了进去,汤姆撞到了墙上。杰瑞躲在安全舒适的地方,在一张小桌子旁享用着战利品,开心地啃着,画面逐渐变暗。”
基准比较
按人类评估Elo分数来衡量,TTT-MLP在时间一致性、运动平滑度和整体美观度方面优于所有其他基准。
提示:“汤姆正开心地在餐桌旁啃苹果派。杰瑞看起来很想吃一个。杰瑞走到屋前门外,按响了门铃。汤姆过来开门时,杰瑞绕到厨房后面。杰瑞偷走了汤姆的苹果派。杰瑞拿着苹果派跑到老鼠洞里,而汤姆在后面紧紧追赶。眼看汤姆就要抓住杰瑞,杰瑞成功钻入了老鼠洞,汤姆一头撞到了墙上。”
局限性
生成的一分钟视频展现出概念验证具有的明显潜力,但仍然含有明显的伪影。
工作原理浅析
该系统基于预训练的Diffusion Transformer模型CogVideo-X 5B,该模型之前只能生成3 秒长的片段。研究人员将TTT层插入到模型中,并训练了它们(以及局部注意力模块),以处理更长的序列。
为了控制成本,自注意力机制被限制在3秒长的短片段上,而TTT层负责理解涉及这些片段的整体叙事。该架构还包含门控机制,以确保TTT层在训练初期不会降低性能。
他们通过双向处理序列并将视频分割成带注释的场景来进一步改进训练。比如说,他们使用故事板格式详细描述每个3秒的片段,包括背景、角色位置、摄像机角度和动作。
据集:不一样的《猫和老鼠》
为了在一致且易于理解的视觉领域进行研究,团队从7 个多小时的经典《猫和老鼠》动画片中精选出一个数据集。这些动画片被分解成多个场景,并精细地标注成 3 秒长的片段。通过专注于动画片数据,研究人员避免了照片写实的复杂性,并专注于叙事连贯性和运动动态。
标注人员为每个片段撰写了描述性段落,确保模型拥有丰富的结构化输入可供学习。这还便于多阶段训练——先使用 3 秒的片段,然后逐步增加到最长 63 秒的序列。
性能:它真的有效吗?
是的,效果出色。与Mamba 2、Gated DeltaNet 和滑动窗口注意力等领先的基准模型相比,TTT-MLP模型在100个视频的人工评估中平均比它们高出34个Elo点。
评估考虑以下因素:
•文本对齐:视频与提示的衔接程度
•运动自然度:角色运动的真实度
•美学:光照、色彩和视觉吸引力
•时间一致性:跨场景的视觉连贯性
TTT-MLP在运动和场景一致性方面尤为出色,能够保持动态动作的逻辑连续性,其他模型难以做到这一点。
伪影与局限性
尽管结果令人鼓舞,但仍然存在伪影。光照变化可能不一致,或者运动看起来漂浮不定(比如奶酪不自然地悬浮)。这些问题可能与基础模型CogVideo-X的局限性有关。另一个瓶颈是效率。虽然TTT-MLP的速度比完全自注意力模型快得多(快2.5 倍),但仍然比更精简的RNN方法(比如Gated DeltaNet)慢。话虽如此,TTT只需要进行微调,不用从头开始训练,这使得它在许多用例中更加实用。
这种方法的独特优势
•表达性记忆:TTT将RNN的隐藏状态转化为易于训练的网络,使其远比固定大小的矩阵更具表达力。
•适应性:TTT 层在推理过程中可以学习和调整,使其能够实时响应展开的视频。
•可扩展性:在资源充足的情况下,该方法可以扩展,以支持更长、更复杂的视频故事。
•实用的微调:研究人员仅对TTT层和门控进行微调,从而保持训练的轻量级和高效性。
未来方向
团队指出了几个扩展机会:
•优化TTT 内核以加快推理速度
•尝试使用更大或不同的骨干模型
•探索更复杂的故事情节和专题领域
•使用基于Transformer的隐藏状态而不是MLP,以提升表现力
TTT视频生成 vs MoCha vs Goku vs OmniHuman1 vs DreamActor-M1
下表解释了该模型与其他热门视频生成模型之间的差异:
模型 | 核心重点 | 输入类型 | 关键特性 | 与TTT有何不同 |
TTT(测试 时间训练) | 长格式视频生成, 附有动态适应 | 文本故事板 | -推理过程中可调整 -可处理超过60秒的视频 -连贯的多场景故事 | 为长视频设计,生成过程中可更新内部状态,以确保叙事一致性 |
MoCha | 说话角色生成 | 文本+语音 | -没有关键点或参照图像 -语音驱动型通体动画 | 专注于角色对话和表达,而不是全场景叙事视频 |
Goku | 高质量视频和 图像生成 | 文本和语音 | -经过校正的流Transformer -支持多模态输入 | 针对质量和训练速度经过优化;并不为长格式叙事设计 |
OmniHuman1 | 逼真的人类动画 | 图像+音频+文本 | -多重条件信号 -高分辨率化身 | 创建栩栩如生的人类;并不为长序列或动态场景转场建模 |
DreamActor- M1 | 图像到动画 (脸/身体) | 图像+驱动视频 | -整体式运动模仿 -高帧一致性 | 将静态图像变动画;不使用文本或处理逐一场景的故事生成 |
结语
测试时间训练为解决长上下文视频生成问题提供了一个引人入胜的新视角。通过让模型在推理过程中学习和适应,它弥补了叙事方面的关键空白:在这个领域,连贯性、情感和节奏完全与视觉保真度同样重要。
无论你是生成式AI研究人员、创意技术专家,还是对AI生成的媒体的未来充满好奇的产品领导者,这篇文章都指向了从文本生成动态连贯视频的未来。
原文标题:Generating One-Minute Videos with Test-Time Training,作者:Nitika Sharma