小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

只需一张照片,整个进程无需训练 LoRA 模型,多作风 AI 写真即刻呈现!最近,有一群来自小红书的 95 后神秘团队,自称 InstantX,搞了个大动作 —— 开源「InstantID」项目。InstantID 凭借着高质量的图象生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。这个「出片神器」,让用户只需上传一张照片,就能轻松定制出多种作风的 AI 写真。对,你没看错。如图左侧所示,与之前爆火的妙鸭相机至少需要上传 20 张照片不同的是,Insta

只需一张照片,整个进程无需训练 LoRA 模型,多作风 AI 写真即刻呈现!

最近,有一群来自小红书的 95 后神秘团队,自称 InstantX,搞了个大动作 —— 开源「InstantID」项目。

InstantID 凭借着高质量的图象生成能力,在开源界掀起了一股热潮:不仅获得了众多技术大佬的点赞,更是在 GitHub 热榜上迅速飙升,成为焦点。

这个「出片神器」,让用户只需上传一张照片,就能轻松定制出多种作风的 AI 写真。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

对,你没看错。如图左侧所示,与之前爆火的妙鸭相机至少需要上传 20 张照片不同的是,InstantID 只需一张自拍,不依赖模型训练,不需要等待,瞬间变身。

无论是古典油画的优雅,炫酷的赛博朋克,或是 3D 雕像的立体感,只要是你喜欢的作风,InstantID 都能轻松驾驭。

它不仅作风多样,还能在连结人物脸部高保真的同时,无需模型训练,实现秒级出图,效率大幅提升。

InstantID 目前位列 Hugging Face Space Trending 榜首,许多小伙伴玩得不亦乐乎~

比如,把马斯克送上了火星。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

让蒙娜丽莎拍「樱花写真」,微笑依旧很神秘。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

甚至可以让语文课本中的杜甫从二维变三维,穿越到现代变身「帅大叔」。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

图灵奖得主 Yann LeCun,化身多种动漫人物,你猜出了几个角色?

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

就连 Yann LeCun 本人也点赞转发,调侃自己的「钢铁侠」衣服在哪里。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

在个性化图象合成领域,实现强烈作风化写真的同时连结脸部高保真度,一直是个挑战。

从效果上看,InstantID 做到了。那它背后运用了哪些方法,有什么独到之处吗?

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

回顾过去,尽管 Textual Inversion、 DreamBooth 和 LoRAs 等技术已经取得了重大进展。但它们在实际应用中仍受限于高存储需求、耗时的微调进程以及对多张参考图象的依赖。相比之下,现有基于 ID 嵌入的方法虽然只需一次前向推理,但也面临不小挑战:要么需要对大量模型参数进行广泛的微调,要么与社区预训练模型不兼容,要么无法连结高真实性。

InstantID 的出现,打破了这些局限。小红书 InstantX 团队公开了论文《 InstantID: Zero-shot Identity-Preserving Generation in Seconds 》和推理代码,他们表示:InstantID 巧妙地避免了对文生图模型 UNet 部分的训练,仅通过训练一个轻量级的可插拔模块,实现了在推理进程中无需 test-time tuning,同时连结了文本控制的灵活性,确保了脸部特点的高保真度。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

如图所示,InstantID 的工作原理可分为三个关键部分:

ID Embedding:团队利用预训练的脸部识别模型代替 CLIP 来提取语义人脸特点,并使用可训练的投影层,将这些特点映射到文本特点空间,形成 Face Embedding,具有丰富的语义信息,包括如脸部特点、表情、年龄等,为后续的图象生成提供了坚实的基础。

Image Adapter:引入一个轻量级的适配模块,将提取的身份信息与文本提示结合起来。这个模块通过解耦的交叉注意力机制,使得图象和文本可能独立地影响生成进程,从而在连结身份信息的同时,允许用户对图象作风进行精细控制,实现「双赢」。

IdentityNet:小红书提出了一个名为 IdentityNet 的网络,是 InstantID 的核心部分。它通过强语义条件(如脸部特点的详细描述)和弱空间条件(如脸部关键点的位置)来编码参考脸部图象的复杂特点。在 IdentityNet 中,生成进程完全由 Face Embedding 引导,无需任何文本信息。仅更新新添加的模块,而预先训练的文本到图象模型连结冻结以确保灵活性。

在实际的图象生成进程中,InstantID 首先会接收到用户的文本提示和脸部图象。然后通过 ID Embedding 提取关键信息,接着 Image Adapter 将这些信息与文本提示交融。IdentityNet 会根据这些交融后的信息生成图象。

整个进程是自动化的,用户不需要进行任何额外的微调或训练,只需等待二十几秒,就能得到一个既符合文本描述又保留个人身份特点的定制图象。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

InstantID 不仅解决了训练效率与身份保真度之间的平衡问题,还提供了一系列令人印象深刻的特性。

首先,InstantID 的即插即用和兼容性是其最大的卖点之一。它无需对 UNet 进行额外训练,即可与现有的预训练模型无缝集成,如社区内的文生图基础模型、LoRAs 和 ControlNets。这意味着用户可以在不增加成本的情况下,轻松地在推理进程中连结人物的身份特点,裂变性强。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

其次,InstantID 的无需微调特性,使得它在实际应用中极具经济性和实用性。用户只需进行一次前向传播,即可快速生成图象,同时连结对文本编辑的强大控制力,让身份信息与各种作风完美交融。如下图所示,其编辑性强的特点让用户可能通过文本控制性别、头发、服装等细节,确保生成图象的多样性。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

性能方面的表现同样卓越,它可能仅凭一张参考图象,就生成具有高保真度和灵活性的先进结果。这一性能不仅超越了基于单张图片特点的嵌入方法,如 IP-Adapter-FaceID,而且在特定场景下,其效果与 ROOP、LoRAs 等方法不相上下。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

对于相似度有更高要求的真人写真场景,InstantID 也能完成得不错。不仅可能在秒级时间内完成高质量的图象生成,还避免耗时的 LoRa 训练,相比妙鸭成本更低,大约是其 1/300。通过精细化控制脸部区域,InstantID 可能增强脸部相似度,同时连结整体作风的和谐。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

此外,InstantID 的分区域生成方案支持多人多作风的图象生成,耗时基本无增。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

它的鲁棒性和泛化性,使其能顺利处理夸张的五官比例。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

多视角的生成也没问题。按你指定的姿势图和脸部特点,生成新的 AI 写真。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

InstantID 的可扩展性良好,可能快速支持多种衍生功能。

比如快速换脸。与 Inswapper 相比,InstantID 生成的作品在面孔和背景的交融上更加灵活。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

ID 信息插值。InstantID 支持两脸自定义交融,保留双方特点。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

非人像与 ID 的结合,很有特点。

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

聊到这儿,不妨你亲自尝试一下,感受它的魅力。

操作方式非常简单,进入 InstantID 的 Demo 页面,直接上传照片,便可免费体验 :

https://huggingface.co/spaces/InstantX/InstantID

小红书开源「InstantID」效果炸裂,被Yann LeCun点赞,迅速蹿上Github热榜

InstantID 的这些优势,不仅为个人用户提供了强大的创作工具,也为商业应用如电子商务、广告和娱乐产业开辟了新的可能性。InstantID 本次表现令人惊喜,其高效、灵活、强大的性能和易用性,印象深刻。期待小红书该开源项目的后续进展,未来能在多个领域发挥出更大的价值。

附录:

论文地址:https://arxiv.org/abs/2401.07519

InstantID 主页:https://instantid.github.io/

Demo 尝鲜:https://huggingface.co/spaces/InstantX/InstantID

给TA打赏
共{{data.count}}人
人已打赏
应用

刚刚,字节版GPTs「扣子」上线了

2024-2-1 14:45:00

应用

亚马逊部署超过750,000+ 台机器人,产业创新基金投资生成式AI

2024-2-1 17:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索