动画视频生成这几天火了,这次 NUS、字节的新框架不仅效果自然流畅,还在视频保真度方面比其他办法强了一大截。
前几日,阿里研讨团队构建了一种名为 Animate Anyone 的办法,只需要一张人物照片,再配合骨骼动画引导,就能生成自然的动画视频。不过,这项研讨的源代码还没有发布。
让钢铁侠动起来。
其实在 Animate Anyone 这篇论文出现在 arXiv 上的前一天,新加坡国立大学 Show 实行室和字节联合做了一项类似的研讨。他们提出了一个基于聚集的框架 MagicAnimate,旨在增强工夫一致性、忠实地保存参照图象并提升动画保真度。并且,MagicAnimate 项目是开源的,目前推理代码和 gradio 在线 demo 已经发布。
论文地址:https://arxiv.org/pdf/2311.16498.pdf
项目地址:https://showlab.github.io/magicanimate/
GitHub 地址:https://github.com/magic-research/magic-animate
为了实现上述目标,研讨者首先开发了一个视频聚集模型来编码工夫信息。接着为了保持跨帧的表面连贯性,他们引入了新颖的表面编码器来保存参照图象的复杂细节。利用这两个创新,研讨者进一步使用简单的视频融合技术来保证长视频动画的平滑过渡。
实行结果表明,MagicAnimate 在两项基准测试上均优于基线办法。尤其在具有挑战性的 TikTok 舞蹈数据集上,本文办法在视频保真度方面比最强基线办法高出 38%以上。
我们来看以下几个 TikTok 小姐姐的动态揭示效果。
除了舞蹈的 TikTok 小姐姐之外,还有「跑起来」的神奇女侠。
戴珍珠耳环的少女、蒙娜丽莎都做起了瑜伽。
除了单人,多人舞蹈也能搞定。
与其他办法比较,效果高下立判。
还有国外网友在HuggingFace上创建了一个试用空间,创建一个动画视频只要几分钟。不过这个网站已经404了。
图源:https://twitter.com/gijigae/status/1731832513595953365
接下来介绍 MagicAnimate 的办法和实行结果。
办法概览
给定参照图象 I_ref 和静止序列,其中 N 是帧数。MagicAnimate 旨在合成连续视频。其中出现画面 I_ref,同时遵循静止序列。现有基于聚集模型的框架独立处理每个帧,忽略了帧之间的工夫一致性,从而导致生成的动画存在「闪烁」问题。
为了解决该问题,该研讨通过将工夫注意力(temporal attention)块合并到聚集主干网络中,来构建用于工夫建模的视频聚集模型。
此外,现有工作使用 CLIP 编码器对参照图象进行编码,但该研讨认为这种办法无法捕获复杂细节。因此,该研讨提出了一种新型表面编码器(appearance encoder),将 I_ref 编码到表面嵌入 y_a 中,并以此为基础对模型进行调整。
MagicAnimate 的整体流程如下图 2 所示,首先使用表面编码器将参照图象嵌入到表面嵌入中,然后再将目标姿态序列传递到姿态 ControlNet中,以提取静止条件。
在实践中,由于内存限制,MagicAnimate 以分段的方式处理整个视频。得益于工夫建模和强大的表面编码,MagicAnimate 可以在很大程度上保持片断之间的工夫和表面一致性。但各部分之间仍然存在细微的不连续性,为了缓解这种情况,研讨团队利用简单的视频融合办法来提高过渡平滑度。
如图 2 所示,MagicAnimate 将整个视频分解为重叠的片断,并简单地对重叠帧的预测进行平均。最后,该研讨还引入图象 – 视频联合训练策略,以进一步增强参照图象保存能力和单帧保真度。
实行及结果
实行部分,研讨者在两个数据集评估了 MagicAnimate 的性能,分别是 TikTok 和 TED-talks。其中 TikTok 数据集包含了 350 个舞蹈视频,TED-talks 包含 1,203 个提取自 YouTube 上 TED 演讲视频的片断。
首先看定量结果。下表 1 揭示了两个数据集上 MagicAnimate 与基线办法的定量结果比较,其中表 1a 显示在 TikTok 数据集上,本文办法在 L1、PSNR、SSIM 和 LPIPS 等重建指标上超越了所有基线办法。
表 1b 显示在 TED-talks 数据集上,MagicAnimate 在视频保真度方面也更好,取得了最好的 FID-VID 分数(19.00)和 FVD 分数(131.51)。
再看定性结果。研讨者在下图 3 揭示了 MagicAnimate 与其他基线办法的定性比较。本文办法实现了更好的保真度,展现了更强的背景保存能力, 这要归功于从参照图象中提取细节信息的表面编码器。
研讨者还评估了 MagicAnimate 的跨身份动画(Cross-identity animation),以及与 SOTA 基线办法的比较,即 DisCo 和 MRAA。具体来讲,他们从 TikTok 测试集中采样了两个 DensePose 静止序列,并使用这些序列对其他视频的参照图象进行动画处理。
下图 1 显示出 MRAA 无法泛化到包含大量不同姿态的驱动视频,而 DisCo 难以保存参照图象的细节。相比之下,本文办法忠实地为给定目标静止的参照图象设置动画,揭示了其稳健性。
最后是消融实行。为了验证 MagicAnimate 中设计选择的有效性,研讨者在 TikTok 数据集上进行了消融实行,包括下表 2 和下图 4 中有无工夫建模、表面编码器、推理阶段视频融合以及图象 – 视频联合训练等。
MagicAnimate 的应用前景也很广。研讨者表示,尽管仅接受了真实人类数据的训练,但它展现出了泛化到各种应用场景的能力,包括对未见过的领域数据进行动画处理、与文本 – 图象聚集模型的集成以及多人动画等。
更多细节请阅读原论文。