你要跳舞么？复旦&微软提出StableAnimator：可实现高质量和高保真的ID一致性人类视频生成

2025-01-22 10:30

本文经AIGC Studio公众号授权转载，转载请联系出处。由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架，实现了高质量和高保真的ID一致性人类视频生成。 StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。

本文经AIGC Studio公众号授权转载，转载请联系出处。

由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架，实现了高质量和高保真的ID一致性人类视频生成。

StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。FaceFusion 是一个换脸工具。GFP-GAN 和 CodeFormer 是人脸恢复模型。ControlNeXt 是最新的开源动画模型。

论文阅读

StableAnimator：高质量且可保留身份的人体图像动画

论文介绍

当前用于人体图像动画的扩散模型难以确保身份 (ID) 一致性。论文介绍了 StableAnimator，这是第一个端到端 ID 保留视频扩散框架，它以参考图像和一系列姿势为条件，无需任何后期处理即可合成高质量视频。基于视频扩散模型，StableAnimator 包含精心设计的模块，用于训练和推理，力求实现身份一致性。

具体而言，StableAnimator 首先分别使用现成的提取器计算图像和人脸嵌入，然后通过使用全局内容感知人脸编码器与图像嵌入交互来进一步细化人脸嵌入。然后，StableAnimator 引入了一种新颖的分布感知 ID 适配器，可防止时间层造成的干扰，同时通过对齐保留 ID。在推理过程中，

论文提出了一种基于 Hamilton-Jacobi-Bellman (HJB) 方程的新型优化，以进一步提高人脸质量。论文证明了求解 HJB 方程可以集成到扩散去噪过程中，并且得到的解可以限制去噪路径，从而有利于 ID 保存。在多个基准测试上的实验从定性和定量两个方面证明了 StableAnimator 的有效性。

方法介绍

StableAnimator 基于先前研究而来的常用 SVD。参考图像通过扩散模型通过三种途径进行处理：

由冻结的 VAE 编码器转换为潜在代码。潜在代码被复制以匹配视频帧，然后与主潜在代码连接。
由 CLIP 图像编码器编码以获得图像嵌入，这些嵌入分别被馈送到去噪 U-Net 的每个交叉注意力块和我们的人脸编码器，以调节合成的外观。
输入到 Arcface 以获得人脸嵌入，随后通过我们的人脸编码器对其进行细化以进一步对齐。然后将细化的人脸嵌入输入到去噪 U-Net。

具有与 AnimateAnyone 类似架构的 PoseNet 提取姿势序列的特征，然后将其添加到噪声潜在代码中。在推理过程中用随机噪声替换原始输入视频帧，而其他输入保持不变。论文提出了一种基于 HJB 方程的新型人脸优化方法，以提高 ID 一致性并消除对第三方后处理工具的依赖。它将 HJB 方程的求解过程集成到去噪中，从而实现最佳梯度方向以实现较高的 ID 一致性。

结果展示

与最先进方法的定性比较。

面部增强策略的消融研究。

结论

StableAnimator是一种视频扩散模型，具有专用的训练和推理模块，可生成高质量、保留 ID 的人体图像动画。StableAnimator 首先使用现成的模型来获取图像和人脸嵌入。为了捕捉参考的全局上下文，StableAnimator 引入了 8 个人脸编码器来细化人脸嵌入。StableAnimator 进一步设计了一个 ID 适配器，它应用对齐来减轻时间建模的干扰，实现无缝人脸嵌入集成而不会造成视频保真度损失。在推理过程中，为了进一步提高人脸质量，StableAnimator 将 HJB 方程与扩散去噪结合起来进行人脸优化。它与去噪并行运行，创建了一个端到端管道，从而无需第三方换脸工具。跨各种数据集的实验结果证明了该模型在生成高质量保留 ID 的人体动画方面的优势。

LineArt：无需训练的高质量设计绘图生成方法，可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载，转载请联系出处。今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt，该方法可以将复杂外观转移到详细设计图上的框架，可促进设计和艺术创作。现有的图像生成技术在细节保留和风格样式一致性方面存在局限，尤其是在处理专业设计图时。

1/20/2025 10:23:00 AM

AIGC Studio

阿里通义实验室提出AnyStory：开启个性化文本到图像生成的新篇章！

在这个数字化时代，生成式AI技术正以前所未有的速度改变着我们的创作方式。近期，阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文，该论文提出了一种创新的框架，旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成，为故事可视化、艺术创作乃至更多领域带来了革命性的突破。论文中深入探讨了当前文本到图像生成技术面临的挑战，如主体一致性、细节保留以及多主体个性化等方面的不足。

1/24/2025 12:11:21 PM

AIGC Studio

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT

今天介绍的文章来自公众号粉丝投稿，腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT，给定一个人像图像和一个衣物图像，就可以生成一个展示人物穿着所提供衣物的图像。 FitDiT 在虚拟试穿中表现出色，解决了各种场景中与纹理感知保存和尺寸感知试穿相关的挑战。引言基于图像的虚拟试穿是当前电商场景流行且前景看好的图像合成技术，能够显著改善消费者的购物体验并降低服装商家的广告成本。

2/20/2025 9:36:45 AM

AIGC Studio

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度扣子空间Coze Space正式开启内测支持 MCP 扩展集成

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部

你要跳舞么？复旦&微软提出StableAnimator：可实现高质量和高保真的ID一致性人类视频生成

相关链接

论文阅读

论文介绍

方法介绍

结果展示

结论

相关资讯

LineArt：无需训练的高质量设计绘图生成方法，可保留结构准确性并生成高保真外观

阿里通义实验室提出AnyStory：开启个性化文本到图像生成的新篇章！

腾讯优图提出首个基于DiT的高保真虚拟试衣算法FitDiT