人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇实质，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本论文作者主要来自于腾讯光子工作室团队，一作何炫华 ([email protected]) 是中国科技大学在读的研究生，他的研究方向为图象 / 视频生成模型与底层视觉；作

AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇实质，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本论文作者主要来自于腾讯光子工作室团队，一作何炫华 ([email protected]) 是中国科技大学在读的研究生，他的研究方向为图象 / 视频生成模型与底层视觉；作者刘权德 ([email protected])、钱湦钜 ([email protected])，目前就职于腾讯光子工作室，博士均毕业于香港中文大学。

近年来，定制化的人物生成技术在社区中引起了广泛关注。一系列创新性的模型，如 IP-Adapter、Photomaker、InstantID 等，已在图象生成规模取得了令人瞩目的成果。这些定制化实质生成办法逐渐成为主流，其一个重要的优势便是即插即用，取代了那些需要逐例微调的 Dreambooth,LoRA 等办法。

然而，尽管在图象生成规模取得了巨大的成功，这些办法在视频生成规模却遇到了阻碍。相较于图象，视频生成模型的训练需要更大的算力投入。同时，在视频数据集方面，迄今为止仍缺乏类似图象生成规模高质量的文本 – 视频配对人脸数据集。此外，如何提取人物身份一致性的特色也是一个难题。

为了应对这些挑战，腾讯光子近期发布的工作 ID-Animator，提出了一种文本驱动的人物视频生成框架。该框架旨在根据给定的一张参照图片，生成一致性的角色定制化视频。通过这一创新性技术，研究者可以期待在不久的将来，人们将不妨更轻松地实现定制化的人物视频生成，从而为各种应用场景带来更加丰富的视觉体验。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

论文地址: https://arxiv.org/abs/2404.15275

Github 地址: https://github.com/ID-Animator/ID-Animator

Huggingface 地址: https://huggingface.co/spaces/ID-Animator/ID-Animator

首先，让我们直观感受一下 ID-Animator 生成的视频效果，不妨轻松的让不同的角色做起丰富的行动：人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator ID-Animator 不仅能生成 ID 一致的人类视频，还具备人脸特色融合的能力：

此外，ID-Animator 还可以兼容开源社区上的多种权重，为视频生成带来更多可能性：人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

办法概览

研究团队提出的办法可以概括为三个核心组件，如图所示。这三个部分包括：面向 ID 的视频数据集重构流程、随机人脸参照的训练办法，以及 ID-Animator 模型框架。通过这三个关键组成部分，ID-Animator 成功实现了高保真的一致性人物视频生成。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

ID-Animator 框架

ID-Animator 框架由一个轻量级的人脸适配器模块和一个视频生成主干网络组成。其视频生成主干网络权重在训练过程中保持固定，无需微调。人脸适配器模块则由交叉注意力模块和可学习的脸部特色查询组成，负责从 CLIP 编码的特色中提取与身份相关的表征，并将身份表征注入主干网络。利用这种轻量级的适配器模块，ID-Animator 只需要很小的训练开销就能实现人物一致性的视频生成。

面向 ID 的数据集构建

为了应对以 ID 为核心的成对视频 – 文本数据集在视频生成规模的稀缺挑战，研究者们提出了一套巧妙的数据集重构策略。他们利用现有的 Celebv-HQ 数据集，将其重构为以 ID 为中心的人类视频数据集。这一策略分为两个主要步骤：文本重写和脸部图象资源库构建。

现有的 Celebv 数据集的文本描绘采用固定模板，主要关注人物表情的变化，却忽略了人物属性与所处环境，同时缺乏对行动的描绘，因此不适用于文本生成视频的训练。为了解决这一问题，研究者们提出了一种新颖的文本重写办法，旨在生成更贴切的人类视频描绘文本。考虑到视频整体特色和人物静态属性，他们采用了一种解耦式的文本重写办法，分别描绘人物属性和环境，生成人类属性描绘；同时描绘视频中人物的整体行动，生成行动描绘。最后，借助大型语言模型将两种描绘整合，生成连贯且丰富的全新文本。

如图所示，重写后的文本描绘更接近人类的语言风格，并能更好地描绘人物的运动和属性。这一创新性办法为视频生成规模提供了一个更实用、更高质量的数据集基础。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator

为了进一步提升生成视频的身份保持能力，研究者们引入了一种随机脸部提取技术。这种技术的特点在于，它并不直接采用整个视频帧作为生参照图象，而是构建数据集时专门针对人脸区域进行随机采样，从而形成一个独立的脸部图象资源库。这一策略有效地过滤了大量非身份决定性的视觉信息，如背景变化、衣着装饰等，使得生成模型不妨更加专注于学习和重现个体的脸部特色与表情细节。

随机参照人脸训练办法

利用数据集脸部资源库，研究者们提出了一种随机参照人脸的训练办法。这种办法的核心在于利用与视频实质弱相关的参照图象作为条件输入，引导模型在生成视频实质时，更多地关注指令指导的行动和 ID 无关特色。

具体操作上，研究者们从人脸资源库中随机选取参照图象，使得每次训练迭代都能为模型提供一个新的、与目标视频序列关联较弱的脸部图象作为参照。这种办法实现了视频实质与人脸参照图象的解耦，有助于模型更好地学习和生成符合指令的行动，同时减弱与身份无关的特色的影响。

实验结果

与 IP-Adapter 对比

研究者们首先将 ID-Animator 与常用的零样本定制化图象生成模型 IP-Adapter 的变体进行对比。将零样本定制化图象生成模型直接应用于视频生成时，可能会导致指令跟随能力和 ID 一致性的降低。为了证明 ID-Animator 的优越性能，研究者们展示了在 3 个名人和普通人上的对比结果。

如图所示，ID-Animator 在视频场景下展现出了更强大的指令跟随能力和 ID 保真度。

人物照片+文字 = 定制化视频，腾讯光子开源ID-Animator