两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

广阔的战场,风暴兵在奔跑……                           prompt:Wide shot of battlefield, stormtroopers running...这段长达 1200 帧的 2 分钟视频来自一个文生视频(text-to-video)模型,尽管 AI 生成的痕迹依然浓重,但我们必须承认,其中的人物和场景具有相当不错的一致性。这是如何办到的呢?要知道,虽然近些年文生视频技术的生成品质和文本对齐品质都已经相当出色,但大多数现有步骤都聚焦于生成短视频(通常是 16 或 24

广阔的战场,风暴兵在奔跑……两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

                           prompt:Wide shot of battlefield, stormtroopers running…

这段长达 1200 帧的 2 分钟视频来自一个文生视频(text-to-video)模型,尽管 AI 生成的痕迹依然浓重,但我们必须承认,其中的人物和场景具有相当不错的一致性。

这是如何办到的呢?要知道,虽然近些年文生视频技术的生成品质和文本对齐品质都已经相当出色,但大多数现有步骤都聚焦于生成短视频(通常是 16 或 24 帧长度)。然而,适用于短视频的现有步骤通常无法用于长视频(≥ 64 帧)。

即使是生成短序列,通常也需要成本高昂的训练,比如训练步数超过 260K,批大小超过 4500。如果不在更长的视频上进行训练,通过短视频生成器来制作长视频,得到的长视频通常品质不佳。而现有的自返回步骤(通过应用短视频后几帧生成新的短视频,进而合成长视频)也存在场景切换不一致等一些问题。

为了克服现有步骤的缺点和局限,Picsart AI Resarch 等多个机构联合提出了一种新的文生视频步骤:StreamingT2V。这也是一种自返回步骤,并配备了长短期记忆模块,进而可以生成具有时间一致性的长视频。

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

论文标题:StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text

论文地址:https://arxiv.org/abs/2403.14773

项目地址:https://streamingt2v.github.io/

如下是一段 600 帧 1 分钟的视频生成结果,可以看到蜜蜂和花朵都有非常出色的一致性:两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

                          prompt: Marvel at the diversity of bee species…

为此,该团队提出了条件注意力模块(CAM)。得益于其注意力性质,它可以有效地借用之前帧的内容信息来生成新的帧,同时还不会让之前帧的结构 / 形状限制新帧中的运动情况。

而为了解决生成的视频中人与物外观变化的问题,该团队又提出了外观保留模块(APM):其可从一张初始图象(锚帧)提取对象或全局场景的外观信息,并应用该信息调节所有视频块的视频生成流程。

为了进一步提升长视频生成的品质和分辨率,该团队针对自返回生成任务对一个视频加强模型进行了改进。为此,该团队选择了一个高分辨率文生视频模型并应用了 SDEdit 步骤来提升连续 24 帧(其中有 8 帧重叠帧)视频块的品质。

为了使视频块加强过渡变得平滑,他们还设计了一种随机夹杂步骤,能以无缝方式夹杂重叠的加强过的视频块。

步骤

首先,生成 5 秒时长的 256 × 256 分辨率的视频(16fps),然后将其加强至更高的分辨率(720 × 720)。图 2 展示了其完整的工作流程。

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

长视频生成部分由初始化阶段(Initialization Stage)和流式文生视频阶段(Streaming T2V Stage)构成。

其中,初始化阶段是应用一个预训练的文生视频模型(比如可以应用 Modelscope)来生成第一个 16 帧的视频块;而流式文生视频阶段则是以自返回方式生成后续帧的新内容。

对于自返回流程(见图 3),该团队新提出的 CAM 可以利用之前视频块最后 8 帧的短期信息,实现块之间的无缝切换。另外,他们还会应用新提出的 APM 模块来提取一张固定锚帧的长期信息,使自返回流程能稳健地应对事物和场景细节在生成流程中的变化。

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

在生成得到了长视频(80、240、600、1200 或更多帧)之后,他们再通过流式优化阶段(Streaming Refinement Stage)来提升视频品质。这个流程会以自返回方式应用一个高分辨率文生短视频模型(如可应用 MS-Vid2Vid-XL),再搭配上新提出的用于无缝视频块处理的随机夹杂步骤。而且后一步无需额外的训练,这使得该步骤无需较高的计算成本。

条件注意力模块

首先,将所应用的预训练文生(短)视频模型记为 Video-LDM。注意力模块(CAM)的构成是一个特征提取器、一个向 Video-LDM UNet 注入的特征注入器。

其中特征提取器应用了逐帧的图象编码器,之后是与 Video-LDM UNet 直到中间层一直应用的一样的编码器层(并通过 UNet 的权重初始化)。

对于特征注入,这里的设计则是让 UNet 中的每个长程跳跃连接通过交叉注意力关注 CAM 生成的相应特征。

外观保留模块

APM 模块可通过应用固定锚帧中的信息来将长期记忆整合进视频生成流程中。这有助于维持视频块生成流程中的场景和对象特征。

为了让 APM 能平衡处理锚帧和文本指令给出的引导信息,该团队做出了两点改进:(1)将锚帧的 CLIP 图象 token 与文本指令的 CLIP 文本 token 夹杂起来;(2)为每个交叉注意力层引入了一个权重来应用交叉注意力。

自返回视频加强

为了自返回地加强 24 帧的生成视频块,这里应用的是高分辨率(1280×720)的文生(短)视频模型(Refiner Video-LDM,见图 3)。这个流程的做法是首先向输入视频块加入大量噪声,然后再应用这个文生视频扩散模型来进行去噪处理。

不过,这种步骤不足以解决视频块之间的过渡不匹配的问题。

为此,该团队的解决方案是随机夹杂步骤。具体详情请参阅原论文。

实验

在实验中,该团队应用的评价指标包括:用于评价时间一致性的 SCuts 分数、用于评价运动量和扭变误差的运动感知扭变误差(MAWE)、用于评价文本对齐品质的 CLIP 文本图象相似度分数(CLIP)、美学分数(AE)。

消融研究

为了评价各种新组件的有效性,该团队从验证集中随机采样 75 个 prompt 执行了消融研究。

用于条件处理的 CAM:CAM 能帮助模型生成更一致的视频,其 SCuts 分数比相比较的其它基线模型低 88%。

长期记忆:图 6 表明长期记忆能在自返回生成流程中极大帮助维持对象和场景的特征稳定。

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

在一个定量评价指标(人再识别分数)上,APM 实现了 20% 的提升。

用于视频加强的随机夹杂:与其它两个基准相比,随机夹杂能带来显著的品质提升,从图 4 中也能看到:StreamingT2V 可以得到更平滑的过渡。

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

StreamingT2V 对比基线模型

该团队通过定量和定性评价比较了集成上述改进的 StreamingT2V 与多种模型,包括应用自返回步骤的图象到视频步骤 I2VGen-XL、SVD、DynamiCrafter-XL、SEINE,视频到视频步骤 SparseControl,文本到长视频步骤 FreeNoise。

定量评价:从表 8 可以看出,在测试集上的定量评价表明,StreamingT2V 在无缝视频块过渡和运动一致性方面的表现最佳。新步骤的 MAWE 分数也显著优于其它所有步骤 —— 甚至比第二好的 SEINE 低 50% 以上。SCuts 分数上也有类似表现。

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

此外,在生成视频的单帧品质上,StreamingT2V 仅略逊于 SparseCtrl。这表明这个新步骤能够生成高品质的长视频,并且比其它对比步骤具有更好的时间一致性和运动动态。

定性评价:下图展示了 StreamingT2V 与其它步骤的效果比较,可以看出新步骤能在保证视频动态效果的同时维持更好的一致性。

两分钟1200帧的长视频生成器StreamingT2V来了,代码将开源

 更多研究细节,可参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

ICLR 2024 | RLHF有了通用平台和基准,天大开源,专攻现实决策场景

2024-3-27 18:48:00

工程

CVPR 2024|生成不了光线极强的图片?微信视觉团队有效办理聚集模型奇点课题

2024-3-28 14:38:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索