全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

来自阿里的研究团队提出了一种名为 Animate Anyone 的办法,只需一张人物照片,再配合骨骼动画指导,就能生成动画视频。最近一段空儿,你可能或多或少的听到过「科目三」,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一跳舞行动遭全网模仿。如果相似的跳舞,让 AI 生成会怎样?就像下图所展示的,不管是现代人、还是纸片人,都做着整齐划一的行动。你可能猜不到的是,这是根据一张图片生成的跳舞视频。人物行动难度加大,生成的视频也非常丝滑(最右边):让梅西、钢铁侠动起来,也不在话下:还有各种动漫小姐姐。上述效果是如何做到

来自阿里的研究团队提出了一种名为 Animate Anyone 的办法,只需一张人物照片,再配合骨骼动画指导,就能生成动画视频。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

最近一段空儿,你可能或多或少的听到过「科目三」,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一跳舞行动遭全网模仿。

如果相似的跳舞,让 AI 生成会怎样?就像下图所展示的,不管是现代人、还是纸片人,都做着整齐划一的行动。你可能猜不到的是,这是根据一张图片生成的跳舞视频。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

人物行动难度加大,生成的视频也非常丝滑(最右边):

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

让梅西、钢铁侠动起来,也不在话下:

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

还有各种动漫小姐姐。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

上述效果是如何做到的呢?我们接着往下看。

脚色动画(Character Animation)是将源脚色图象按照所需的姿势序列动画化为逼真视频的任务,具有许多潜在的应用,例如在线零售、娱乐视频、艺术创作和虚拟脚色等。 

从 GAN 开始,研究者一直在不断深入了解将图象从事动画化以及从事姿势迁移的探索,然而,生成的图象或视频仍然存在局部失真、细节模糊、语义不一致和空儿不稳定等问题,从而阻碍了这些办法的应用。

本文,来自阿里的研究者提出了一种名为 Animate Anybody 的办法,该办法能够将脚色图象转换为动画视频,而形成的视频遵循所要求的姿势序列。该研究继承了 Stable Diffusion 的网络计划和预训练权重,并修改了去噪 UNet 以适应多帧输入。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

论文地址:https://arxiv.org/pdf/2311.17117.pdf

项目地址:https://humanaigc.github.io/animate-anyone/

为了连结外表一致性,该研究还引入了 ReferenceNet,它被计划为对称的 UNet 结构,用于捕获参照图象的空间细节。在 UNet 块的每个相应层,该研究利用空间 – 注意力将 ReferenceNet 的特性集成到去噪 UNet 中,这种架构使模型能够在一致的特性空间中全面学习与参照图象的关系。

为了确保姿势可控性,该研究计划了一种轻量级姿势指导器,以有效地将姿势控制信号集成到去噪过程中。为了实现空儿稳定性,本文引入了空儿层( temporal layer)来对多个帧之间的关系从事建模,从而在模拟连续且平滑的空儿运动过程的同时保留视觉质量的高分辨率细节。

Animate Anybody 是在 5K 脚色视频剪辑的内部数据集上训练而成,图 1 显示了各种脚色的动画结果。与以前的办法相比,本文的办法具有几个显着的优点:

首先,它有效地连结了视频中人物外表的空间和空儿一致性。 

其次,它生成的高清视频不会出现空儿抖动或闪烁等问题。 

第三,它能够将任何脚色图象动画化为视频,不受特定领域的限制。 

本文在两个特定的人类视频合成基准(UBC 时髦视频数据集和 TikTok 数据集)上从事了评估。结果显示,Animate Anybody 取得了 SOTA 结果。此外,该研究还将 Animate Anybody 办法与在大规模数据上训练的一般图象到视频办法从事了对比,结果显示 Animate Anybody 在脚色动画方面展示了卓越的能力。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

Animate Anybody 与其他办法的对比:

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

办法介绍

本文办法如下图 2 所示,网络的初始输入由多帧噪声组成。研究者基于 SD 计划来配置去噪 UNet,采用了相同的框架和块单元,并继承了来自 SD 的训练权重。具体来讲,该办法包含了三个关键组成部分,分别如下:

ReferenceNet,编码参照图象脚色的外表特性;

Pose Guider(姿势指导器),编码行动控制信号以实现可控脚色运动;

Temporal layer(空儿层),编码空儿关系以确保脚色行动的连续性。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

ReferenceNet

ReferenceNet 是一个参照图象特性提取网络,它的框架与去噪 UNet 大致相同,仅有空儿层不同。因此,ReferenceNet 继承了与去噪 UNet 类似的原始 SD 权重,并且每个权重更新都是独立从事的。研究者解释了将 ReferenceNet 的特性集成到去噪 UNet 的办法。

ReferenceNet 的计划有两个优势。第一,ReferenceNet 可以利用原始 SD 的预训练图象特性建模能力,产生初始化良好的特性。第二,由于 ReferenceNet 与去噪 UNet 本质上具有相同的网络结构和共享初始化权重,因而去噪 UNet 可以选择性地从 ReferenceNet 中学习在同一特性空间关联的特性。

姿势指导器

轻量级的姿势指导器利用四个卷积层(4×4 内核、2×2 步幅、利用 16、32、64、128 个通道,类似于 [56] 中的条件编码器)来对齐分辨率与潜在噪声相同的姿势图象,接着处理后的姿势图象在被输入到去噪 UNet 之前添加到潜在噪声中。姿势指导器利用高斯权重从事初始化,并在最终的映射层用到了零卷积。

空儿层

空儿层的计划灵感来自 AnimateDiff。对于一个特性图 x∈R^b×t×h×w×c,研究者首先将它变形为 x∈R^(b×h×w)×t×c,然后执行空儿注意力,即沿着维度 t 的自注意力。空儿层的特性通过残差连接合并到了原始特性中,这种计划与下文的双阶段训练办法相一致。空儿层专门在去噪 UNet 的 Res-Trans 块内利用。

训练策略

训练过程分为两个阶段。

第一阶段,利用单个视频帧从事训练。在去噪 UNet 中,研究者暂时排除了空儿层,模型将单帧噪声作为输入。参照网络和姿势指导器也在这一阶段从事训练。参照图象是从整个视频片段中随机选取的。他们根据 SD 的预训练权重初始化去噪 UNet 和 ReferenceNet 的模型。姿势指导器利用高斯权重从事初始化,但最后的投影层除外,该层利用零卷积。VAE 的编码器和解码器以及 CLIP 图象编码器的权重都连结不变。这一阶段的优化目标是使模型在给定参照图象和目标姿势的条件下生成高质量的动画图象。

在第二阶段,研究者将空儿层引入先前训练好的模型,并利用 AnimateDiff 中预先训练好的权重对其从事初始化。模型的输入包括一个 24 帧的视频片段。在这一阶段,只训练空儿层,同时固定网络其他部分的权重。

实验与结果

定性结果:如图 3 显示,本文办法可以制作任意脚色的动画,包括全身人像、半身人像、卡通人物和仿人脚色。该办法能够生成高清晰度和逼真的人物细节。即使在大幅度运动的情况下,它也能与参照图象连结空儿上的一致性,并在帧与帧之间表现出空儿上的连续性。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

时髦视频合成。时髦视频合成的目的是利用驱动姿势序列将时髦照片转化为逼真的动画视频。实验在 UBC 时髦视频数据集上从事,该数据集由 500 个训练视频和 100 个测试视频组成,每个视频包含约 350 个帧。定量对比见表 1。在结果中可以发现,本文办法优于其他办法,尤其是在视频度量指标方面表现出明显的领先优势。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

定性对比如图 4 所示。为了从事公平对比,研究者利用 DreamPose 的开源代码获得了未从事样本微调的结果。在时髦视频领域,对服装细节的要求非常严格。然而,DreamPose 和 BDMM 生成的视频无法连结服装细节的一致性,并在颜色和精细结构元素方面表现出明显的误差。相比之下,本文办法生成的结果能更有效连结服装细节的一致性。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

人类跳舞生成。人类跳舞生成聚焦于将现实跳舞场景图象从事动画处理。研究者们利用了 TikTok 数据集,其中包括 340 个训练视频和 100 个测试视频。按照 DisCo 的数据集划分办法,利用利用相同的测试集,其中包含 10 个 TikTok 风格的视频,研究者从事了定量对比,见表 2。本文办法取得了最佳结果。为了增强泛化能力,DisCo 结合了人类属性预训练,利用大量图象对从事模型预训练。相比之下,研究者训练只在 TikTok 数据集上从事,结果优于 DisCo。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

图 5 中展示了与 DisCo 的定性对比。考虑到场景的复杂性,DisCo 的办法需要额外利用 SAM 来生成人类前景掩码。相反,本文办法表明,即使没有明确的人体掩码学习,模型也能从被摄体的运动中掌握前景与背景的关系,而无需事先从事人体分割。此外,在复杂的跳舞序列中,该模型在连结整个行动的视觉连续性方面表现突出,并在处理不同的脚色外表方面表现出更强的稳健性。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

图象 – 视频的通用办法。目前,许多研究都提出了基于大规模训练数据、具有强大生成能力的视频扩散模型。研究者选择了两种最著名、最有效的图象 – 视频办法从事对比:AnimateDiff 和 Gen2。由于这两种办法不从事姿势控制,因此研究者只对比了它们连结参照图象外表保真度的能力。如图 6 所示,当前的图象 – 视频办法在生成大量脚色行动方面面临挑战,并且难以在视频中连结长期的外表一致性,从而阻碍了对一致脚色动画的有效支持。

全网都在模仿的「科目三」,梅西、钢铁侠、二次元小姐姐马上拿下

了解更多内容,请参照原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

微软教小模型推理进阶版:Orca 2性能媲美10倍参数模型,已开源

2023-12-4 10:47:00

工程

手机上0.2秒出图、当前速度之最,谷歌打造超快集中模型MobileDiffusion

2023-12-4 11:46:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索