你要跳舞么?复旦&微软提出StableAnimator:可实现高质量和高保真的ID一致性人类视频生成

本文经AIGC Studio公众号授权转载,转载请联系出处。 由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。 StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。

本文经AIGC Studio公众号授权转载,转载请联系出处。

由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。

图片StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。FaceFusion 是一个换脸工具。GFP-GAN 和 CodeFormer 是人脸恢复模型。ControlNeXt 是最新的开源动画模型。

图片图片

相关链接

  • 论文:https://arxiv.org/abs/2411.17697
  • 主页:https://francis-rings.github.io/StableAnimator/
  • 代码:https://github.com/Francis-Rings/StableAnimator
  • Demo: https://www.bilibili.com/video/BV1X5zyYUEuD

论文阅读

图片StableAnimator:高质量且可保留身份的人体图像动画

论文介绍

当前用于人体图像动画的扩散模型难以确保身份 (ID) 一致性。论文介绍了 StableAnimator,这是第一个端到端 ID 保留视频扩散框架,它以参考图像和一系列姿势为条件,无需任何后期处理即可合成高质量视频。基于视频扩散模型,StableAnimator 包含精心设计的模块,用于训练和推理,力求实现身份一致性。

具体而言,StableAnimator 首先分别使用现成的提取器计算图像和人脸嵌入,然后通过使用全局内容感知人脸编码器与图像嵌入交互来进一步细化人脸嵌入。然后,StableAnimator 引入了一种新颖的分布感知 ID 适配器,可防止时间层造成的干扰,同时通过对齐保留 ID。在推理过程中,

论文提出了一种基于 Hamilton-Jacobi-Bellman (HJB) 方程的新型优化,以进一步提高人脸质量。论文证明了求解 HJB 方程可以集成到扩散去噪过程中,并且得到的解可以限制去噪路径,从而有利于 ID 保存。在多个基准测试上的实验从定性和定量两个方面证明了 StableAnimator 的有效性。

方法介绍

图片StableAnimator 基于先前研究而来的常用 SVD。参考图像通过扩散模型通过三种途径进行处理:

  1. 由冻结的 VAE 编码器转换为潜在代码。潜在代码被复制以匹配视频帧,然后与主潜在代码连接。
  2. 由 CLIP 图像编码器编码以获得图像嵌入,这些嵌入分别被馈送到去噪 U-Net 的每个交叉注意力块和我们的人脸编码器,以调节合成的外观。
  3. 输入到 Arcface 以获得人脸嵌入,随后通过我们的人脸编码器对其进行细化以进一步对齐。然后将细化的人脸嵌入输入到去噪 U-Net。

具有与 AnimateAnyone 类似架构的 PoseNet 提取姿势序列的特征,然后将其添加到噪声潜在代码中。在推理过程中用随机噪声替换原始输入视频帧,而其他输入保持不变。论文提出了一种基于 HJB 方程的新型人脸优化方法,以提高 ID 一致性并消除对第三方后处理工具的依赖。它将 HJB 方程的求解过程集成到去噪中,从而实现最佳梯度方向以实现较高的 ID 一致性。

结果展示

图片

图片与最先进方法的定性比较。

图片

面部增强策略的消融研究。

图片

结论

StableAnimator是一种视频扩散模型,具有专用的训练和推理模块,可生成高质量、保留 ID 的人体图像动画。StableAnimator 首先使用现成的模型来获取图像和人脸嵌入。为了捕捉参考的全局上下文,StableAnimator 引入了 8 个人脸编码器来细化人脸嵌入。StableAnimator 进一步设计了一个 ID 适配器,它应用对齐来减轻时间建模的干扰,实现无缝人脸嵌入集成而不会造成视频保真度损失。在推理过程中,为了进一步提高人脸质量,StableAnimator 将 HJB 方程与扩散去噪结合起来进行人脸优化。它与去噪并行运行,创建了一个端到端管道,从而无需第三方换脸工具。跨各种数据集的实验结果证明了该模型在生成高质量保留 ID 的人体动画方面的优势。

相关资讯

LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。

阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!

在这个数字化时代,生成式AI技术正以前所未有的速度改变着我们的创作方式。 近期,阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文,该论文提出了一种创新的框架,旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成,为故事可视化、艺术创作乃至更多领域带来了革命性的突破。 论文中深入探讨了当前文本到图像生成技术面临的挑战,如主体一致性、细节保留以及多主体个性化等方面的不足。

OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。 比如一个提示词加一个服装图片就能让生成的人物穿上服装。