AI在线 AI在线

字节推文生图框架InfiniteYou :可保持人脸特征,场景随便换

作者:AI在线
2025-03-21 03:13
字节跳动悄悄咪咪推出了一款名为 InfiniteYou (InfU), 的图像生成神器。 简单的说,这是一款文本到图像的生成模型,它的厉害之处在于,能够根据你输入的文字描述,生成带有你个人身份特征的高质量图像。 这可不是简单的换脸App能比的,它更注重的是在灵活变换场景和内容的同时,精准保留你的身份特征。

字节跳动悄悄咪咪推出了一款名为 InfiniteYou (InfU), 的图像生成神器。简单的说,这是一款文本到图像的生成模型,它的厉害之处在于,能够根据你输入的文字描述,生成带有你个人身份特征的高质量图像

QQ_1742541024681.png

这可不是简单的换脸App能比的,它更注重的是在灵活变换场景和内容的同时,精准保留你的身份特征。想象一下,你可以轻松生成自己穿着宇航服漫步太空、身着古装穿越回古代的照片,而且保证那张脸还是你自己的,是不是很酷?

InfiniteYou”之所以能做到这一点,背后可有着一套“组合拳”。

  • 核心武器:InfuseNet。“InfiniteYou”的核心是一个名为 InfuseNet 的秘密武器。它可以将你的身份特征巧妙地注入到被称为 Diffusion Transformer (DiT) 的先进图像生成模型(比如 FLUX)中。InfuseNet就像一位技艺高超的化妆师,通过“残差连接”这种精细的操作,在增强人脸相似度的同时,还不破坏原有的生成能力。
  • 多阶段训练:精益求精。“InfiniteYou”的炼成并非一蹴而就,而是经历了预训练和使用合成的单人多样本(SPMS)数据进行监督微调(SFT)等多重考验。这种精细化的训练策略,能够显著提升文本和图像的对齐度,让生成的图像更符合你的文字描述,同时还能提高图像质量和美观度,并有效缓解“换脸”后常见的面部复制粘贴问题
  • 模型“双保险”:各有侧重。字节跳动这次还贴心地发布了 aes_stage2sim_stage1 两个模型版本。aes_stage2 是经过第二阶段微调的模型,默认情况下拥有更好的文图对齐度和美观性。如果你更看重人脸的相似度,那么可以选择 sim_stage1。这就像买手机,一个注重拍照效果,一个注重性能,总有一款适合你。

通过对比实验可以看出,“InfiniteYou”在身份相似性、文本图像对齐、图像质量和美观度等方面,都超越了现有的先进方法,比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要么人脸不像,要么文字描述和图像内容不符,要么就是图像质量堪忧,甚至出现“换脸”后脸部特征生硬粘贴的问题。相比之下,“InfiniteYou”的表现更加全面和出色。

更令人惊喜的是,“InfiniteYou”还具备**“即插即用”**的特性。它可以与 FLUX.1-dev 的各种变体(比如更高效的 FLUX.1-schnell)、ControlNets 和 LoRAs 等现有工具无缝集成,提供更强的可控性和定制化能力。甚至还可以与 IP-Adapter 结合,实现个性化图像的风格迁移。这种强大的兼容性,无疑将为更广泛的社区做出有价值的贡献。

需要注意的是,“InfiniteYou”目前是基于 Creative Commons Attribution-NonCommercial4.0International Public License 发布的,仅供学术研究使用。下载和使用相关的模型(如 InsightFace 的人脸模型、FLUX.1-dev 基础模型和 LoRA 等)必须遵守其原始许可。同时,开发者也希望用户能够遵守当地法律法规,负责任地使用这项技术,避免任何潜在的滥用行为

项目入口:https://top.aibase.com/tool/infiniteyou

相关资讯

Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

你们有没有觉得,辛辛苦苦用海量数据喂养出来的图像模型,在生成高质量图片时,总像蜗牛爬树般慢吞吞?别急,Luma AI 最近开源了一项名为 Inductive Moment Matching (IMM) 的图像模型预训练技术,据说能让模型以前所未有的“闪电”速度生成高质量图像,简直是炼丹炉里的涡轮增压!算法停滞?Luma AI 怒砸“天花板”近年来,AI 社区普遍感受到,生成式预训练似乎遇到了瓶颈。 尽管数据量持续攀升,但算法创新却相对停滞。 Luma AI 认为,这并非数据不够,而是算法没能充分挖掘数据的潜力,这如同手握金矿却只会用锄头挖土,效率实在堪忧。
3/12/2025 3:16:00 PM
AI在线

谷歌Gemini 2.0 Flash放出原生图像生成功能:支持多轮对话式实时编辑编辑

继Gemma3之后,谷歌又给我们带来了一位“闪电侠”——Gemini2.0Flash,而且人家这次是带着独门绝技来的:原生图像生成!  要知道,以前的AI图像生成,很多时候都是大型语言模型(LLM)先理解你的文字,然后再把意思“翻译”给专门生成图像的扩散模型。 这中间难免会有些“失真”,就像隔着好几个人传话,最后意思都变味儿了。
3/13/2025 9:50:00 AM
AI在线