腾讯混元开源定制化图像生成插件 InstantCharacter

2025-04-18 12:02

腾讯混元宣布开源定制化图像生成插件 InstantCharacter，并实现了对开源文生图模型 Flux 的兼容。这一插件的推出，标志着图像生成技术在角色一致性和图像生成精确度上取得了重大突破，为内容创作者提供了更高效、更灵活的创作工具。 InstantCharacter 的核心优势在于能够确保角色在不同场景中的一致性和真实性，同时具备高画质和精度，以及灵活的文本编辑性。

腾讯混元宣布开源定制化图像生成插件 InstantCharacter，并实现了对开源文生图模型 Flux 的兼容。这一插件的推出，标志着图像生成技术在角色一致性和图像生成精确度上取得了重大突破，为内容创作者提供了更高效、更灵活的创作工具。

InstantCharacter 的核心优势在于能够确保角色在不同场景中的一致性和真实性，同时具备高画质和精度，以及灵活的文本编辑性。用户可以通过简单的提示词，让任何角色以想要的姿势出现在任何地方。例如，只需一张图片和一句描述，如“一只兔子在厨房拿着勺子喝汤”，就能生成相应的图像。这种能力在多轮文生图场景中尤为重要，解决了角色一致性这一难题。

微信截图_20250418113416.png

在技术实现上，InstantCharacter 利用 DiT 模型构建了一个创新的框架，引入了一个可扩展的适配器（adapter），采用多个 transformer encoder，能够有效处理开放域的角色特征，并与现代扩散变换器的潜在空间无缝交互。这种设计使得系统能够灵活适应不同的角色特征，同时保持高度的一致性。

为了有效训练这一框架，腾讯混元团队构建了一个包含千万级样本的大规模角色数据集。数据集被系统地组织为成对（多视角角色）和非成对(文本 - 图像组合)子集，使得身份一致性和文本可编辑性能够通过不同的学习路径同时优化。这种双数据结构的设计，进一步提升了模型的泛化能力和图像质量。

在实际测评中，InstantCharacter 的效果媲美 GPT-4o 等业界领先模型。它能够处理多种风格和复杂度的图像，适用于连环画、影片创作等多种场景。通过 InstantCharacter，内容创作者可以让生成的角色保持高度一致，更高效地创作出符合需求的视觉作品。

- 项目官网:https://instantcharacter.github.io/

- 代码:https://github.com/Tencent/InstantCharacter

- Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter

- 论文:https://arxiv.org/abs/2504.12395

好看又好用！5 款高质量的 Flux Lora 模型推荐

大家好，这里是和你们一起探索 AI 的花生~ 这几天一直在高强度学习 Flux 的相关内容，前面为大家详细介绍了 Flux 生态的最新内容，今天再推荐一些我发现的质量非常不错的 Flux Lora，包含写实、插画等多种风格，其中一些对提升 Flux 的出图效果非常有帮助，一起来看看吧~ 如果你还不了解如何使用 Flux Lora，可以看这里：一、FLUX1-超写实逼真黑悟空 8 月 20 号备受瞩目的国产 3D 游戏大作《黑神话：悟空》正式上线，无论是朋友圈、微博、B 站还是其他平台都被它的相关信息刷屏了，甚至

8/21/2024 7:53:03 AM

夏花生

腾讯旗下InstantCharacter框架正式开源可高度个性化任何角色

近日，腾讯旗下InstantCharacter框架正式开源，为AI驱动的角色定制领域带来突破性进展。据AIbase了解，该框架能够基于单张图像与文本提示生成高一致性的自定义角色，支持多样化的姿势、风格与场景生成。 InstantCharacter以其在角色一致性、图像质量及开放域灵活性上的出色平衡，迅速成为开源社区的焦点。

4/18/2025 12:02:40 PM

AI在线

智谱开源文生图模型CogView4，支持中英双语提示词输入

智谱AI最新开源文生图模型CogView4正式亮相，CogView4不仅在参数数量上达到了6亿，还全面支持中文输入和中文文本到图像的生成，被称其为“首个能在画面中生成汉字的开源模型”。 CogView4以支持中英双语提示词输入为核心亮点，尤其擅长理解和遵循复杂的中文指令，成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型，它填补了开源领域的一大空白。

3/4/2025 1:44:00 PM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

​腾讯混元开源定制化图像生成插件 InstantCharacter

相关资讯

好看又好用！5 款高质量的 Flux Lora 模型推荐

腾讯旗下InstantCharacter框架正式开源 可高度个性化任何角色

智谱开源文生图模型CogView4，支持中英双语提示词输入

腾讯混元开源定制化图像生成插件 InstantCharacter

腾讯旗下InstantCharacter框架正式开源可高度个性化任何角色