生成式 AI 进入视频时代了。
提到视频生成,很多人首先想到的可能是 Gen-2、Pika Labs。但刚刚,Meta 宣布,他们的视频生成效果超过了这两家,而且编写起来还更加灵活。
这个「吹小号、跳舞的兔子」是 Meta 发布的最新 demo。从中可以看出,Meta 的技术既支持灵活的图象编写(例如把「兔子」变成「吹小号的兔子」,再变成「吹彩虹色小号的兔子」),也支持根据文本和图象生成高分辨率视频(例如让「吹小号的兔子」欢快地跳舞)。
其实,这其中涉及两项工作。
灵活的图象编写由一个叫「Emu Edit」的模型来完成。它支持通过文字对图象进行自由编写,包括本地和全局编写、删除和添加背景、颜色和几何转换、检测和分割等等。此外,它还能精确遵循指令,确保输出图象中与指令无关的像素保持不变。
给鸵鸟穿裙子
高分辨率的视频则由一个名叫「Emu Video」的模型来生成。Emu Video 是一个鉴于集中模型的文生视频模型,能够鉴于文本生成 512×512 的 4 秒高分辨率视频(更长的视频在论文中也有讨论)。一项严格的人工评估表明,与 Runway 的 Gen-2 以及 Pika Labs 的生成效果相比,Emu Video 在生成质量和文本忠实度方面的得分都更高。以下是它的生成效果:
在官方博客中,Meta 展望了这两项技术的应用前景,包括让社交媒体用户自己生成动图、表情包,按照自己的意愿编写照片和图象等等。关于这点,Meta 在之前的 Meta Connect 大会上发布 Emu 模型时也提到过(参见:《Meta 版 ChatGPT 来了:Llama 2 加持,接入必应搜索,小扎现场演示》)。
接下来,我们将分别介绍这两个新模型。
EmuVideo
大型文生图模型在网络规模的图象 – 文本对上经过训练,可生成高质量的多样化图象。虽然这些模型可以通过运用视频 – 文本对进一步适用于文本 – 视频(T2V)生成,但视频生成在质量和多样性方面仍然落后于图象生成。与图象生成相比,视频生成更具挑战性,因为它需要建模更高维度的时空输出空间,而能依据的仍然只是文本提示。此外,视频 – 文本数据集通常比图象 – 文本数据集小一个数量级。
视频生成的主流模式是运用集中模型一次生成所有视频帧。与此形成鲜明对比的是,在 NLP 中,长序列生成被表述为一个自回归问题:以先前预测的单词为前提预测下一个单词。因此,后续预测的前提信号(conditioning signal)会逐渐变强。研究者假设,加强前提信号对高质量视频生成也很重要,因为视频生成本身就是一个时间序列。然而,运用集中模型进行自回归解码具有挑战性,因为借助此类模型生成单帧图象本身就需要多次迭代。
因此,Meta 的研究者提出了 EMU VIDEO,通过显式的中间图象生成步骤来增强鉴于集中的文本到视频生成的前提。
论文地址:https://emu-video.metademolab.com/assets/emu_video.pdf
项目地址:https://emu-video.metademolab.com/
具体来说,他们将文生视频问题分解为两个子问题:(1) 根据输出的文本提示生成图象;(2) 根据图象和文本的强化前提生成视频。直观地说,给模型一个起始图象和文本会使视频生成变得更容易,因为模型只需预测图象在未来将如何演变即可。
Meta 的研究者将文生视频分为两步:首先生成以文本 p 为前提的图象 I,然后运用更强的前提 —— 生成的图象和文本 —— 来生成视频 v。为了以图象约束模型 F,他们暂时对图象进行补零,并将其与一个二进制掩码(指示哪些帧是被补零的)以及带噪声的输出连接起来。
由于视频 – 文本数据集比图象 – 文本数据集要小得多,研究者还运用权重冻结的预训练文本 – 图象 (T2I) 模型初始化了他们的文本 – 视频模型。他们确定了关键的设计决策 —— 改变集中噪声调度和多阶段训练 —— 直接生成 512px 高分辨率的视频。
与直接用文本生成视频的方式不同,他们的分解方式在推理时会显式地生成一张图象,这使得他们能够轻松保留文生图模型的视觉多样性、风格和质量(如图 1 所示)。这使得 EMU VIDEO 即使在训练数据、计算量和可训练参数相同的情况下,也能超越直接 T2V 方式。
这项研究表明,通过多阶段的训练方式,文生视频的生成质量可以得到大幅提高。该方式支持直接生成 512px 的高分辨率视频,不需要先前方式中运用的一些深度级联模型。
研究者设计了一个稳健的人工评估方案 ——JUICE,要求评估者在两两比较中做出选择时证明他们的选择是正确的。如图 2 所示,EMU VIDEO 在质量和文本忠实度方面的平均胜率分别为 91.8% 和 86.6%,大大超越了包括 Pika、Gen-2 等商业解决方案在内的所有前期工作。除 T2V 外,EMU VIDEO 还可用于图象 – 视频生成,即模型根据用户提供的图象和文本提示生成视频。在这种情况下,EMU VIDEO 的生成结果有 96% 优于 VideoComposer。
从展示的 demo 中可以看到,EMU VIDEO 已经可以支持 4 秒的视频生成。在论文中,他们还探讨了增加视频时长的方式。作者表示,通过一个小的架构修改,他们可以在 T 帧上约束模型并扩展视频。因此,他们训练 EMU VIDEO 的一个变体,以「过去」16 帧为前提生成未来 16 帧。在扩展视频时,他们运用与原始视频不同的未来文本提示,效果如图 7 所示。他们发现,扩展视频既遵循原始视频,也遵循未来文本提示。
Emu Edit :精确的图象编写
每天都有数百万人运用图象编写。然而,流行的图象编写工具要么需要相当多的专业知识,运用起来很耗时,要么非常有限,仅提供一组预定义的编写操作,如特定的过滤器。现阶段,鉴于指令的图象编写试图让用户运用自然语言指令来解决这些限制。例如,用户可以向模型提供图象并指示其「给鸸鹋穿上消防员服装」这样的指令(见图 1)。
然而,虽然像 InstructPix2Pix 这类鉴于指令的图象编写模型可以用来处理各种给定的指令,但它们通常很难准确地解释和执行指令。此外,这些模型的泛化能力有限,通常无法完成与训练时略有不同的任意(见图 3),例如让小兔子吹彩虹色的小号,其他模型要么把兔子染成彩虹色,要么是直接生成彩虹色的小号。
为了解决这些问题,Meta 引入了 Emu Edit,这是首个在广泛且多样化的任意上训练而成的图象编写模型,Emu Edit 可以根据指令进行自由形式的编写,包括本地和全局编写、删除和添加背景、颜色改变和几何变换、检测和分割等任意。
论文地址:https://emu-edit.metademolab.com/assets/emu_edit.pdf
项目地址:https://emu-edit.metademolab.com/
与当今许多生成式 AI 模型不同,Emu Edit 可以精确遵循指令,确保输出图象中与指令无关的像素保持不变。例如,用户给出指令「将草地上的小狗移除」,移除物体后的图片几乎看不出来有什么变化。
移除图片中左下角的文本,再给图片换个背景,Emu Edit 也能处理得很好:
为了训练这个模型,Meta 开发了一个包含 1000 万个合成样本的数据集,每个样本都包含一个输出图象、对要执行任意的描述以及目标输出图象。因而 Emu Edit 在指令忠实度和图象质量方面都显示出前所未有的编写结果。
在方式层面,Meta 训练的模型可以执行十六个不同的图象编写任意,这些任意涵盖鉴于区域的编写任意、自由格式编写任意和计算机视觉任意,所有这些任意都被表述为生成任意,Meta 还为每个任意开发了一个独特的数据管理 pipeline 。Meta 发现,随着训练任意数量的增加,Emu Edit 的性能也会随之提高。
其次,为了有效地处理各种各样的任意,Meta 引入了学习任意嵌入(learned task embedding)的概念,它用于引导生成过程朝着正确的生成任意方向发展。具体来说,对于每个任意,本文学习一个独特的任意嵌入向量,并通过交叉注意力交互将其集成到模型中,并将其添加到时间步嵌入中。结果证明,学习任意嵌入显着增强了模型从自由格式指令中准确推理并执行正确编写的能力。
今年 4 月,Meta 上线「分割一切」AI 模型,效果惊艳到很多人开始怀疑 CV 领域到底还存不存在。短短几个月的时间,Meta 在图象、视频领域又推出 Emu Video 和 Emu Edit ,我们只能说,生成式 AI 领域真的太卷了。
了解更多内容,请查看原论文。