Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

一张照片一段视频，就能让照片活起来！近日，由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星，在 Twitter 更是「火出圈」，吸引了大量博主二创，浏览量总量达到 300K。目前 Champ 已经开源推理代码与权重，用户可以直接从 Github 上下载使用。官方 Hugging Face 的 Demo 已经上线，封装的 Champ-ComfyUI 也正在同步推进中。GitHub 主页显示团队将会在近期开源训练代码及数据集，感兴

一张照片 + 一段视频，就能让照片活起来！

近日，由阿里、复旦大学、南京大学联合发布的可控人体视频生成工作 Champ 火爆全网。该模型仅开源 5 天 GitHub 即收获 1k 星，在 Twitter 更是「火出圈」，吸引了大量博主二创，浏览量总量达到 300K。

目前 Champ 已经开源推理代码与权重，用户可以直接从 Github 上下载使用。官方 Hugging Face 的 Demo 已经上线，封装的 Champ-ComfyUI 也正在同步推进中。GitHub 主页显示团队将会在近期开源训练代码及数据集，感兴趣的小伙伴可以持续关注项目动态。 Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

项目主页：https://fudan-generative-vision.github.io/champ/

论文链接：https://arxiv.org/abs/2403.14781

Github 链接：https://github.com/fudan-generative-vision/champ

Hugging Face 链接：https://huggingface.co/fudan-generative-ai/champ

先来看下 Champ 在真实世界人像上的视频成果，以下图左上角的作为视频为输出，Champ 能让差别的人像「复制」相同的作为：

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

虽然 Champ 仅用真实的人体视频训练，但它在差别类型的图象上展现了强大的泛化能力：

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

黑白照片，油画，水彩画等成果拔群，在差别文生图模型生成的真实感图象，虚拟人物也不在话下：

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

技术概览

Champ 利用先进的人体网格恢复模型，从输出的人体视频中提取出对应的参数化三维人体网格模型 SMPL 序列（Skinned Multi-Person Linear Model），进一步从中渲染出对应的深度图，法线图，人体姿态与人体语义图，作为对应的静止统制前提去指导视频生成，将作为迁移到输出的参照人像上，能够显著地提升人体静止视频的质量，以及若干和表面一致性。

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩

针对差别的静止前提，Champ 采用了一个多层静止融合模块（MLMF），利用自注意力机制充分融合差别前提之间的特性，实现更为精细化的静止统制。下图中展示了该模块差别前提的注意力可视化结果：深度图关注人物形态的若干轮廓信息，法线图指示了人体的朝向，语义图统制人体差别的部分的表面对应关系，而人体姿态骨架则仅关注于人脸与手部的关键点细节。

Champ首发开源：人体视频生成新SOTA，5天斩获1k星，demo可玩