字节推文生图框架InfiniteYou ：可保持人脸特征，场景随便换

2025-03-21 03:13

字节跳动悄悄咪咪推出了一款名为 InfiniteYou （InfU），的图像生成神器。简单的说，这是一款文本到图像的生成模型，它的厉害之处在于，能够根据你输入的文字描述，生成带有你个人身份特征的高质量图像。这可不是简单的换脸App能比的，它更注重的是在灵活变换场景和内容的同时，精准保留你的身份特征。

字节跳动悄悄咪咪推出了一款名为 InfiniteYou （InfU）， 的图像生成神器。简单的说，这是一款文本到图像的生成模型，它的厉害之处在于，能够根据你输入的文字描述，生成带有你个人身份特征的高质量图像。

这可不是简单的换脸App能比的，它更注重的是在灵活变换场景和内容的同时，精准保留你的身份特征。想象一下，你可以轻松生成自己穿着宇航服漫步太空、身着古装穿越回古代的照片，而且保证那张脸还是你自己的，是不是很酷?

“InfiniteYou”之所以能做到这一点，背后可有着一套“组合拳”。

核心武器:InfuseNet。“InfiniteYou”的核心是一个名为 InfuseNet 的秘密武器。它可以将你的身份特征巧妙地注入到被称为 Diffusion Transformer （DiT） 的先进图像生成模型（比如 FLUX）中。InfuseNet就像一位技艺高超的化妆师，通过“残差连接”这种精细的操作，在增强人脸相似度的同时，还不破坏原有的生成能力。
多阶段训练:精益求精。“InfiniteYou”的炼成并非一蹴而就，而是经历了预训练和使用合成的单人多样本（SPMS）数据进行监督微调(SFT)等多重考验。这种精细化的训练策略，能够显著提升文本和图像的对齐度，让生成的图像更符合你的文字描述，同时还能提高图像质量和美观度，并有效缓解“换脸”后常见的面部复制粘贴问题。
模型“双保险”:各有侧重。字节跳动这次还贴心地发布了 aes_stage2 和 sim_stage1 两个模型版本。aes_stage2 是经过第二阶段微调的模型，默认情况下拥有更好的文图对齐度和美观性。如果你更看重人脸的相似度，那么可以选择 sim_stage1。这就像买手机，一个注重拍照效果，一个注重性能，总有一款适合你。

通过对比实验可以看出，“InfiniteYou”在身份相似性、文本图像对齐、图像质量和美观度等方面，都超越了现有的先进方法，比如 FLUX.1-dev IP-Adapter 和 PuLID-FLUX。那些方法要么人脸不像，要么文字描述和图像内容不符，要么就是图像质量堪忧，甚至出现“换脸”后脸部特征生硬粘贴的问题。相比之下，“InfiniteYou”的表现更加全面和出色。

更令人惊喜的是，“InfiniteYou”还具备**“即插即用”**的特性。它可以与 FLUX.1-dev 的各种变体（比如更高效的 FLUX.1-schnell）、ControlNets 和 LoRAs 等现有工具无缝集成，提供更强的可控性和定制化能力。甚至还可以与 IP-Adapter 结合，实现个性化图像的风格迁移。这种强大的兼容性，无疑将为更广泛的社区做出有价值的贡献。

需要注意的是，“InfiniteYou”目前是基于 Creative Commons Attribution-NonCommercial4.0International Public License 发布的，仅供学术研究使用。下载和使用相关的模型（如 InsightFace 的人脸模型、FLUX.1-dev 基础模型和 LoRA 等）必须遵守其原始许可。同时，开发者也希望用户能够遵守当地法律法规，负责任地使用这项技术，避免任何潜在的滥用行为。

项目入口：https://top.aibase.com/tool/infiniteyou

Runway 融资3.08亿美元，估值超 30 亿美元

4/6/2025 11:00:57 AM

AI在线

Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

你们有没有觉得，辛辛苦苦用海量数据喂养出来的图像模型，在生成高质量图片时，总像蜗牛爬树般慢吞吞?别急，Luma AI 最近开源了一项名为 Inductive Moment Matching （IMM）的图像模型预训练技术，据说能让模型以前所未有的“闪电”速度生成高质量图像，简直是炼丹炉里的涡轮增压!算法停滞?Luma AI 怒砸“天花板”近年来，AI 社区普遍感受到，生成式预训练似乎遇到了瓶颈。尽管数据量持续攀升，但算法创新却相对停滞。 Luma AI 认为，这并非数据不够，而是算法没能充分挖掘数据的潜力，这如同手握金矿却只会用锄头挖土，效率实在堪忧。

3/12/2025 3:16:00 PM

AI在线

谷歌Gemini 2.0 Flash放出原生图像生成功能：支持多轮对话式实时编辑编辑

继Gemma3之后，谷歌又给我们带来了一位“闪电侠”——Gemini2.0Flash，而且人家这次是带着独门绝技来的:原生图像生成! 要知道，以前的AI图像生成，很多时候都是大型语言模型（LLM）先理解你的文字，然后再把意思“翻译”给专门生成图像的扩散模型。这中间难免会有些“失真”，就像隔着好几个人传话，最后意思都变味儿了。

3/13/2025 9:50:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

字节推文生图框架InfiniteYou ：可保持人脸特征，场景随便换

相关资讯

Runway 融资3.08亿美元，估值超 30 亿美元

Luma AI 开源的图像预训练技术IMM实现图像生成十倍提速

谷歌Gemini 2.0 Flash放出原生图像生成功能：支持多轮对话式实时编辑编辑