一张照片，为深度学习巨头们定制人像图片

主题驱动的文本到图象生成，通常需要在多张包含该主题（如人物、气势派头）的数据集上从事训练，这类法子中的代表工作包括 DreamBooth、Textual Inversion、LoRAs 等，但这类方案因为需要更新整个网络或较长时间的定制化训练，往往无法很有效地兼容社区已有的模型，并无法在真实场景中快速且低成本运用。而目前鉴于单张图片特点从事嵌入的法子（FaceStudio、PhotoMaker、IP-Adapter），要么需要对文生图模型的全参数训练或 PEFT 微调，影响原本模型的泛化性能，缺乏与社区预训练模型的兼容

一张照片，为深度学习巨头们定制人像图片

为了解决这些问题，来自 InstantX 团队的研究人员提出了 InstantID，该模型不训练文生图模型的 UNet 部分，仅训练可插拔模块，在推理过程中无需 test-time tuning，在几乎不影响文本控制能力的情况下，实现高保真 ID 保留。

一张照片，为深度学习巨头们定制人像图片

论文标题：InstantID: Zero-shot Identity-Preserving Generation in Seconds

论文地址：https://arxiv.org/abs/2401.07519

代码地址：https://github.com/InstantID/InstantID

项目地址：https://instantid.github.io

InstantID 是一个高效的、轻量级、可插拔的适配器，赋予预训练的文本到图象扩散模型以 ID 保存的能力。作者通过（1）将弱对齐的 CLIP 特点替换为强语义的人脸特点；（2）人脸图象的特点在 Cross-Attention 中作为 Image Prompt 嵌入；（3）提出 IdentityNet 来对人脸施加强语义和弱空间的条件控制，从而增强 ID 的保真度以及文本的控制力。

下图为利用 InstantID 从事气势派头化的结果，输入仅为最左侧的人物图象。

一张照片，为深度学习巨头们定制人像图片

文章的主要贡献如下：

（1） InstantID 作为一种全新的 ID 保留法子，有效弥补了训练效率与 ID 保真度之间的差距。

（2）InstantID 是可插拔的，与目前社区内文生图基础模型、LoRAs、ControlNets 等完全兼容，可以零成本地在推理过程中保留人物 ID 属性。此外，InstantID 保留了良好的文本编辑能力，使 ID 能够丝滑地嵌入到各种气势派头当中。

（3）实验结果表明，InstantID 不仅超越目前鉴于单张图片特点从事嵌入的法子（IP-Adapter-FaceID），还与 ROOP、LoRAs 等法子在特定场景下不分伯仲。它卓越的性能和效率激发了其在一系列实际运用中的巨大潜力，例如新颖的视图合成、ID 插值、多 ID 和多气势派头合成等。

一张照片，为深度学习巨头们定制人像图片

法子介绍

仅给定一张参考 ID 图象，InstantID 的目标是从单个参考 ID 图象生成具有各种姿势或气势派头的定制图象，同时保证高保真度。上图概述了我们的法子。它包含三个关键组成部分：(1) 鲁棒的人脸表征；(2) 具有解耦功能的交叉注意力，支持 Image Prompt；(3) IdentityNet，引入额外的弱空间控制对参考脸部图象的复杂特点从事编码。

1. 由于 CLIP 只提供了弱语义表征，无法在人脸等强语义场景下直接运用，考虑了人脸识别领域已经相当成熟，所以我们采用预训练的人脸编码器来提取人脸特点。在本文中，我们使用来自 insightface 提供的 antelopev2 模型来提取人脸特点。

2. 如先前法子所述，预训练的文本到图象扩散模型中的图象提示功能能够增强了文本提示，特别是对于难以用文字描述的内容，因此，我们采用和 IP-Adapter 一致的具有解耦功能的交叉注意力机制，但差别在于我们使用人脸特点，而非 CLIP 表征。

3. 引入 IdentityNet 来对人脸图象从事编码。在实现中，IdentityNet 采用与 ControlNet 一致的残差结构，从而保留原始模型的兼容性。在 IdentityNet 中，主要有两个对于原版 ControlNet 的修改：1）只使用五个脸部关键点，而不是细粒度的 OpenPose 脸部关键点（两个用于眼睛，一个用于鼻子，两个用于嘴巴）用于条件输入。2）我们消除文本提示并使用 ID 嵌入作为条件加入到 ControlNet 中的交叉注意力层。

实验结果

作者首先展示了法子的稳健性、可编辑性和兼容性，分别对应在空文本、编辑文本、额外使用 ControlNets 下的生成效果。可以看到，InstantID 仍然保留了较好的文本控制能力，同时与开源的 ControlNet 模型兼容。

一张照片，为深度学习巨头们定制人像图片

同时该法子也支持多张图注入，来进一步提升效果。

一张照片，为深度学习巨头们定制人像图片

InstantID 与目前社区内主流的三类法子从事对比。

（1）鉴于单图特点注入（IP-Adapter 与 PhotoMaker）。相比之下，IP-Adapter 具有可插拔性，兼容社区模型，且其 FaceID 版本的人脸保真度有明显提升，但是对于文本的控制能力出现明显退化；而近期新推出的 PhotoMaker，需要训练整个模型（虽然采用了 LoRA 的方式），气势派头退化问题减弱，但其人脸保真度未见明显提升，甚至不如 IP-Adapter-FaceID。而我们提出的 InstantID 兼顾了人脸保真度和文本控制能力。

一张照片，为深度学习巨头们定制人像图片