14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

Meta的视频合成新框架又给了我们一点小小的震撼。就今天的人工智能发展水平来说,文生图、图生视频、图象/视频风格迁移都已经不算什么难事。生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图象编写,在以十亿规模数据集为基础预训练的文本到图象集中模型的推动下,经历了重大发展。这股浪潮催生了大量图象编写和内容创建应用。鉴于图象的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「光阴维度」,从而实现轻松而富有创意的视频编写。一种直接策略是使用图象模型逐帧处理视频,然而,生成式图象编写本身就具有高变异性—

Meta的视频合成新框架又给了我们一点小小的震撼。

就今天的人工智能发展水平来说,文生图、图生视频、图象/视频风格迁移都已经不算什么难事。

生成式 AI 天赋异禀,能够毫不费力地创建或修改内容。尤其是图象编写,在以十亿规模数据集为基础预训练的文本到图象集中模型的推动下,经历了重大发展。这股浪潮催生了大量图象编写和内容创建应用。

鉴于图象的生成模型所取得的成就基础上,下一个挑战的领域必然是为其增加「光阴维度」,从而实现轻松而富有创意的视频编写。

一种直接策略是使用图象模型逐帧处理视频,然而,生成式图象编写本身就具有高变异性—即使根据相同的文本提示,也存在无数种编写给定图象的办法。如果每一帧都独立编写,很难保持光阴上的一致性。

在最近的一篇论文中,来自Meta GenAI团队的研究者提出了 Fairy——通过对图象编写集中模型从事「简单的改编」,大大增强了AI在视频编写上的表现。

以下是Fairy的编写视频效果展现:

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

Fairy 生成 120 帧 512×384 视频(4 秒时长,30 FPS)的光阴仅为 14 秒,比之前的办法至少快 44 倍。一项涉及 1000 个生成样本的全面用户研究证实,该办法生成质量上乘,明显优于现有办法。

怎么做到的?

据论文介绍,Fairy以鉴于锚点的跨帧注意力概念为核心,这种机制可隐性地跨帧传布集中特性,确保了光阴一致和高保真的合成效果。Fairy 不仅解决了以往模型在内存和处理速度等方面的局限性,还通过独特的数据增强策略提高了光阴一致性,这种策略使模型等价于源图象和目标图象的仿射变换。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

论文地址:https://arxiv.org/pdf/2312.13834.pdf

项目主页:https://fairy-video2video.github.io/

办法

Fairy在集中模型特性的背景下对以前的跟踪-传布(tracking-and-propagation)范式从事了重新审视。特别是,该研究用对应估计( correspondence estimation)架起了跨帧注意之间的桥梁,使得模型在集中模型内可以跟踪和传布中间特性。

跨帧的注意力图可以解释为一种相似性度量,用来评价各个帧中token之间的对应关系,其中一个语义区域的特性会将更高的注意力分配给其他帧中的相似语义区域,如下图3所示 。

因此,当前的特性表示通过注意力帧间相似区域的加权和从事细化和传布,从而有效地最小化帧之间的特性差异。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

一系列操作下来产生了鉴于锚点的模型,这是 Fairy 的核心组件。

为了确保生成视频的光阴一致性,该研究采样了K个锚点帧,从而提取集中特性,并且提取的特性被定义为一组要传布到连续帧的全局特性。当生成每个新帧时,该研究针对锚点帧的缓存特性将自注意力层替换为跨帧注意力。通过跨帧注意力,每个帧中的 token都采用锚点帧中表现出类似语义内容的特性,从而增强一致性。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

试验评价

在试验部分,研究者主要鉴于指令型图象编写模型来实现Fairy,并使用跨帧注意力替换模型的自注意力。他们将锚帧的数量设置为3。模型可以接受不同长宽比的输出,并将较长尺寸的输出分辨率重新扩展为512,并保持长宽比不变。研究者对输出视频的所有帧从事编写,而不从事下采样。所有计算在8块A100 GPU上分配完成。

定性评价

研究者首先展现了Fairy的定性结果,如下图5所示,Fairy可以对不同的主题从事编写。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

在下图6中,研究者展现了Fairy可以按照文本指令来从事不同类型的编写,包括风格化、脚色变化、局部编写、属性编写等。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

下图9展现了Fairy可以根据指令将源脚色转换为不同的目标脚色。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

定量评价

研究者在下图7中展现了整体质量比较结果,其中Fairy生成的视频更受欢迎。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

下图10展现了与基线模型的视觉比较结果。

14秒就能重建视频,还能变换脚色,Meta让视频合成提速44倍

更多技术细节和试验结果参阅原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

arXiv大升级,论文网页版本间接看

2023-12-25 11:28:00

工程

CPU推理提升4到5倍,苹果用闪存加速大模型推理,Siri 2.0要来了?

2023-12-25 14:40:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索