AI在线 AI在线

​腾讯混元开源定制化图像生成插件 InstantCharacter

作者:AI在线
2025-04-18 12:02
腾讯混元宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容。 这一插件的推出,标志着图像生成技术在角色一致性和图像生成精确度上取得了重大突破,为内容创作者提供了更高效、更灵活的创作工具。 InstantCharacter 的核心优势在于能够确保角色在不同场景中的一致性和真实性,同时具备高画质和精度,以及灵活的文本编辑性。

腾讯混元宣布开源定制化图像生成插件 InstantCharacter,并实现了对开源文生图模型 Flux 的兼容。这一插件的推出,标志着图像生成技术在角色一致性和图像生成精确度上取得了重大突破,为内容创作者提供了更高效、更灵活的创作工具。

InstantCharacter 的核心优势在于能够确保角色在不同场景中的一致性和真实性,同时具备高画质和精度,以及灵活的文本编辑性。用户可以通过简单的提示词,让任何角色以想要的姿势出现在任何地方。例如,只需一张图片和一句描述,如“一只兔子在厨房拿着勺子喝汤”,就能生成相应的图像。这种能力在多轮文生图场景中尤为重要,解决了角色一致性这一难题。

微信截图_20250418113416.png

在技术实现上,InstantCharacter 利用 DiT 模型构建了一个创新的框架,引入了一个可扩展的适配器(adapter),采用多个 transformer encoder,能够有效处理开放域的角色特征,并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征,同时保持高度的一致性。

为了有效训练这一框架,腾讯混元团队构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对(多视角角色)和非成对(文本 - 图像组合)子集,使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。这种双数据结构的设计,进一步提升了模型的泛化能力和图像质量。

在实际测评中,InstantCharacter 的效果媲美 GPT-4o 等业界领先模型。它能够处理多种风格和复杂度的图像,适用于连环画、影片创作等多种场景。通过 InstantCharacter,内容创作者可以让生成的角色保持高度一致,更高效地创作出符合需求的视觉作品。

- 项目官网:https://instantcharacter.github.io/

- 代码:https://github.com/Tencent/InstantCharacter

- Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter

- 论文:https://arxiv.org/abs/2504.12395

相关资讯

好看又好用!5 款高质量的 Flux Lora 模型推荐

大家好,这里是和你们一起探索 AI 的花生~ 这几天一直在高强度学习 Flux 的相关内容,前面为大家详细介绍了 Flux 生态的最新内容,今天再推荐一些我发现的质量非常不错的 Flux Lora,包含写实、插画等多种风格,其中一些对提升 Flux 的出图效果非常有帮助,一起来看看吧~ 如果你还不了解如何使用 Flux Lora,可以看这里:一、FLUX1-超写实逼真黑悟空 8 月 20 号备受瞩目的国产 3D 游戏大作《黑神话:悟空》正式上线, 无论是朋友圈、微博、B 站还是其他平台都被它的相关信息刷屏了,甚至
8/21/2024 7:53:03 AM
夏花生

腾讯旗下InstantCharacter框架正式开源 可高度个性化任何角色

近日,腾讯旗下InstantCharacter框架正式开源,为AI驱动的角色定制领域带来突破性进展。 据AIbase了解,该框架能够基于单张图像与文本提示生成高一致性的自定义角色,支持多样化的姿势、风格与场景生成。 InstantCharacter以其在角色一致性、图像质量及开放域灵活性上的出色平衡,迅速成为开源社区的焦点。
4/18/2025 12:02:40 PM
AI在线

智谱开源文生图模型CogView4,支持中英双语提示词输入

智谱AI最新开源文生图模型CogView4正式亮相,CogView4不仅在参数数量上达到了6亿,还全面支持中文输入和中文文本到图像的生成,被称其为“首个能在画面中生成汉字的开源模型”。 CogView4以支持中英双语提示词输入为核心亮点,尤其擅长理解和遵循复杂的中文指令,成为中文内容创作者的福音。 作为首个能在图像中生成汉字的开源文生图模型,它填补了开源领域的一大空白。
3/4/2025 1:44:00 PM
AI在线