随着 Sora 的爆火,人们看到了 AI 视频生成的巨大潜力,对这一领域的关注度也越来越高。
除了视频生成,在现实生活中,如何对视频举行编纂同样是一个重要的问题,且应用场景更为广泛。以往的视频编纂步骤往往局限于「表面」层面的编纂,例如对视频举行「格调迁移」或者替代视频中的物体,但关于更改视频中工具的「举措」的尝试还很少。
UniEdit 视频编纂结果(举措编纂、格调迁移、背景替代、刚性 / 非刚性物体替代)
本文中,来自浙江大学、微软亚洲研究院、和北京大学的研究者提出了一个基于文本描述的视频编纂统一框架 UniEdit,不仅涵盖了格调迁移、背景替代、刚性 / 非刚性物体替代等传统表面编纂场景,更可以有效地编纂视频中工具的举措,例如将以上视频中浣熊弹吉他的举措变成「吃苹果」或是「招手」。
此外,除了灵活的自然语言接口和统一的编纂框架,这一模型的另一大优势是无需训练,大大提升了部署的便捷性和用户使用的方便度。
论文标题:UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing
项目主页:https://jianhongbai.github.io/UniEdit
代码:https://github.com/JianhongBai/UniEdit
论文:https://arxiv.org/abs/2402.13185
1.UniEdit 在多种视频编纂场景中的表现
a) 工具举措编纂
编纂指令:一只正在趴着的柯基
b) 格调化
编纂指令:上海,码头,油画格调
c) 背景替代
编纂指令:钢铁侠在公园,冬季
d) 工具刚性编纂
编纂指令:一位男士穿着红色西装
e) 工具非刚性编纂
编纂指令:马里奥正在享用晚餐
可以观察到,UniEdit 在不同编纂场景中 1)保持了较好的时序一致性,2)较好的保持了原视频的结构及纹理细节,3)生成符合文本描述的编纂视频,展现出了强大的视频编纂能力。
2.UniEdit 独特之处与技术创新点
研究者表示,UniEdit 相较于其他视频编纂步骤,其独特之处体现在:
多功能:支持视频「举措」编纂以及多种视频「表面」编纂场景。
无需训练:UniEdit 直接利用与训练的文本到视频生成模型,无需额外训练或微调。
灵活性:可兼容不同文本到视频生成模型,可以使用更加强大的视频生成模型提升 UniEdit 编纂质量。
UniEdit 技术上的核心创新点为:
研究者发现,视频生成模型的时间自注意层编码了视频的「帧间依赖性」。基于这个洞察,研究者引入了一个协助的举措参照分支,用于生成文本引导的举措特点,然后通过时间自注意层(SA-T)将这些特点注入到主编纂门路中,从而实现将文本引导的举措注入到源视频中。
受到图象编纂技术的启发,研究者发现视频生成模型的空间自注意层(SA-S)编码了视频帧内空间依赖性。因此,研究者引入了一个协助视频重修分支,并将从视频重修分支的空间自我注意层获得的特点注入到主编纂门路中,以保持源视频的非编纂实质。
为了在编纂表面时保持空间结构,研究者将主编纂门路中的空间注意力图替代为视频重修分支中的空间注意力图。
3.UniEdit 算法框架解读
步骤概述。如上图所示,UniEdit 主编纂门路遵循反演 – 生成流程:使用 DDIM 反演后的潜变量作为初始噪声,然后以目标提醒为文本条件,使用预训练的 UNet 举行去噪处理。举行举措编纂时,为了实现源实质保持和举措统制,研究者提出加入一个协助视频重修分支和一个协助举措参照分支,以提供所需的源视频实质和举措特点,这些特点被注入到主编纂门路中,以实现实质保持和举措编纂。
工具举措编纂 — 实质保持。编纂任务的关键挑战之一是继承源视频中的原始实质(例如纹理和背景)。如图象编纂中所验证的,重修过程中去噪模型的注意力特点包含了源视频的实质信息。因此,UniEdit 将视频重修分支中的注意力特点注入到主编纂门路的空间自注意(SA-S)层中,以保持原视频实质。
在去噪步骤 t,主编纂门路中第个 SA-S 模块的注意力机制操作如下:
其中是主编纂门路中的特点,是重修分支中对应 SA-S 层的值(value),和为超参数。通过替代空间自注意力层的 value 特点,主编纂门路合成的视频保持了源视频的未编纂特点(例如背景)。与之前的视频编纂工作使用的跨帧注意力机制不同,研究者采用逐帧替代的操作,以更好地处理包含大幅度举措的源视频。
工具举措编纂 — 举措注入。为了在不牺牲实质一致性的情况下获得所需的举措,研究者提出用参照举措指导主编纂门路。具体来说,在去噪过程中涉及一个协助举措参照分支。与重修分支不同,举措参照分支以包含所需举措描述的目标提醒为条件。为了将举措转移到主编纂门路,研究者的核心洞察是时间层模拟了合成视频剪辑的帧间依赖性(如下图所示)。受上述观察的启发,研究者设计了在主编纂门路的时间自注意层上注入注意力图:
其中和指的是举措参照分支的查询(query)和键值(key),并在实践中将和设置为零。研究者观察到,时间注意力图的注入可以有效地帮助主编纂门路生成与目标提醒一致的举措。为了更好地将举措与源视频中的实质融合,研究者还在早期去噪步骤中对主编纂门路和举措参照分支实施空间结构统制。
表面编纂 — 空间结构统制。总的来说,表面编纂和举措编纂之间有两个主要区别。首先,表面编纂不需要改变视频的帧间关系。因此,研究者从举措编纂流程中移除了举措参照分支和相应的举措注入机制。其次,表面编纂的主要挑战是保持源视频的结构一致性。为了解决这个问题,研究者在主编纂门路和重修分支之间引入了空间结构统制。
先前的视频表面编纂步骤主要利用协助网络(例如 ControlNet)实现空间结构统制。当协助统制模型失败时,可能会导致在保持原始视频结构方面的性能下降。作为替代,研究者建议从重修分支中提取源视频的空间结构信息。直观地说,空间自注意层中的注意力图编码了合成视频的结构,如下图所示。因此,研究者用重修分支中的查询和键替代主编纂门路中 SA-S 模块的查询和键:
其中和指重修分支的查询和键,和用于统制编纂的程度。值得一提的是,空间结构统制的效果与实质保持机制不同。以格调化为例,上式中的结构统制机制只确保了每帧空间构图的一致性,同时使模型能够基于文本提醒生成所需的纹理和格调。另一方面,实质呈现技术继承了源视频的纹理和格调。因此,研究者使用结构统制而不是实质保持来举行表面编纂。
允许图象输入。为了使 UniEdit 更加灵活,研究者进一步提出一种步骤,允许将图象作为输入并合成高质量的视频。与图象动画技术不同,UniEdit 允许用户用文本提醒指导动画过程。
具体来说,研究者提出首先通过以下方式实现文本到图象(I2V)的生成:1)通过模拟相机运动转换输入图象,形成伪视频片段;或者 2)利用现有的图象动画步骤(例如SVD、AnimateDiff)合成一个具有随机举措的视频(这可能与文本提醒不一致)。然后,研究者使用以上介绍的 UniEdit 算法对原始视频举行文本引导编纂,以获得最终输出视频。
3.UniEdit 实验结果
UniEdit 不局限于特定的视频扩散模型。研究者将 UniEdit 建立在视频生成模型 LaVie 之上,以验证所提出步骤的有效性。对于每个输入视频,研究者遵循 LaVie 的预处理步骤将分辨率调整为 320×512。然后,将预处理后的视频输入 UniEdit 举行视频编纂。每个视频在 NVIDIA A100 GPU 上编纂仅需 1-2 分钟。
基线步骤。为了评估 UniEdit 的性能,研究者将 UniEdit 的编纂结果与最先进的举措和表面编纂步骤举行比较。对于举措编纂,由于缺乏开源的无需训练的步骤,研究者将最先进的非刚性图象编纂技术 MasaCtrl 适配到 T2V 模型,以及 one-shot 视频编纂步骤 Tune-A-Video (TAV) 作为强基线。对于表面编纂,研究者使用最新的性能强大的步骤,包括 FateZero、TokenFlow 和 Rerender-A-Video (Rerender) 作为基线。结果如下图所示:
定性结果。研究者在图中给出了 UniEdit 的编纂示例(更多示例见项目主页及论文原文)。观察到 UniEdit 可以:1)在不同场景中编纂,包括举措变化、物体替代、格调转换、背景修改等;2)与目标提醒一致;3)展示出极佳的时序一致性。
此外,研究者在图 5 中与最先进的步骤举行了比较。对于表面编纂,即将源视频转换为油画格调,UniEdit 在实质保持方面优于基线。例如草原仍保持其原始表面,没有任何额外的石头或小路。对于举措编纂,大多数基线步骤未能输出与目标提醒对齐的视频,或者未能保持源实质。
定量结果。研究者从两个方面定量验证了 UniEdit 的有效性:时间一致性和与目标提醒的一致性。遵循之前的工作,研究者使用 CLIP 模型计算帧间一致性和文本对齐的分数。研究者还通过邀请 10 位参与者对 UniEdit 和基线步骤编纂的视频举行五级评分(1-5)举行了用户研究。如下表所示,UniEdit 的表现大幅超过基线步骤。
更多细节实质请参阅原论文。