国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

2024-07-12 08:01

大家好，这里是和你们一起探索 AI 的花生~ 最近国内科技公司快手在 AI 方面接连发力，推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」，质量均位于同类模型前列，在国外互联网上都引起了广泛的关注和讨论，颇有异军突起之势。其中「可图 Kolors」为开源模型，它不仅在生成质量上超过了前段时间推出的 SD3，与 Midjourney v6 模型不相上下，还支持识别中文提示词和生成中文字符，可谓是国产开源绘画模型之光，今天就为大

大家好，这里是和你们一起探索 AI 的花生~

最近国内科技公司快手在 AI 方面接连发力，推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」，质量均位于同类模型前列，在国外互联网上都引起了广泛的关注和讨论，颇有异军突起之势。

其中「可图 Kolors」为开源模型，它不仅在生成质量上超过了前段时间推出的 SD3，与 Midjourney v6 模型不相上下，还支持识别中文提示词和生成中文字符，可谓是国产开源绘画模型之光，今天就为大家介绍一下 Kolors 的模型特点和使用方法。

一、Kolors 简介

Kolors 是一个基于潜在扩散的大规模文本到图像生成模型，在数十亿个文本-图像对上训练而成。据官方介绍，Kolors 在图像生成质量、复杂提示词理解、字符文本内容渲染等方面都有优异表现，尤其擅长生成高质量、细节清晰的人像图片。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

Kolors 生成的图像

由于 Kolors 将 GLM （General Language Model, 通用语言模型）接入了文本编码器，所以它可以准确理解中文提示词的含义，即使提示词中包含复杂的对象、颜色和位置关系，也能处理得很好。在实际测试中，Kolor 对中文提示词的反应效果甚至比英文还好，这种直接输入中文就生成高质量图像带给人的感觉也非常棒。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

当然 Kolors 最令人惊喜的是它支持生成正确的中文字符，这应该是首个实现此功能的 AI 绘画大模型。文字支持黑体、手写、书法等多种字体，即使是笔画很复杂的字也能准确生成，是 AI 绘画发展的又一大重要进步。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

作为国产大模型，Kolors 对中式元素的呈现效果也非常棒。无论是长城、故宫、鸟巢这样的标志性建筑，还是猪脚饭、螺蛳粉、老婆饼这样的传统美食，Kolors 都能正确呈现出来。内容本土化是 AI 绘画用户的核心需求之一，大家肯定都希望输入提示词 “一个可爱的小男孩”后，得到的是一个中国男孩而不是白人小男孩的形象，Kolor 在这方面的改进可以说非常贴心了。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

在官方测评报告中，Kolors 在人类评估中的表现超过了现有的 SD3、Playground v2.5 等开源模型，在文本忠诚度、视觉吸引力，整体满意度上更是与 Midjourney v6 不相上下。在大模型评测平台 FlagEval 的 “文生图模型排行榜”中，Kolors 也获得第二名的好成绩，仅次于 DALL·E 3。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

大家可以在 Huggingface 上免费体验 Kolors 的图像生成效果，生成速度非常快，几秒就能返回结果。我直接用中文提示词出了几个图，测试其中文和中国元素生成能力，效果都非常不错。

Huggingface Kolors 在线试玩： https://huggingface.co/spaces/gokaygokay/Kolors

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

二、ComfyUI 中使用 Kolors 模型

Kolors 模型开源后 ComfyUI 社区很快就进行了跟进，@Kijia 已经制作了 ComfyUI-KwaiKolorsWrapper 节点，安装后即可在本地使用 Kolors 出图。需要注意的是 Kolors 目前仅允许用于学术研究，如果想商用，需要填写问卷并发送至 [email protected] 进行注册。

ComfyUI 安装步骤：

① 通过 ComfyUI Manager 安装 ComfyUI-KwaiKolorsWrapper 插件；

② 在 ComfyUI-KwaiKolorsWrapper 文件夹中打开终端，运行 pip install -r requirements.txt 命令，安装依赖项；.

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

③ KolorsWrapper 文件夹的 example 文件夹中，导入 kolors_example 工作流到 ComfyUI 中，这个工作流中的节点都是 Kolors 专属的，不同于一般的节点，大家在使用的时候注意区分。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

④ 工作流打开后，如果点击生成，后台会自动下载所需的各种模型文件，但这一步需要等待很长时间，容易出错，所以更推荐大家从我给的网盘资料中下载 Kolors 文件夹，放到根目录的 ComfyUI\models\diffusers 文件夹中。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

⑤ 如果你是从别处获得的模型资源，可以再多检查一步：进入 Kolors\ text_encoder 文件夹，找到所有名称带 text encoder 的文件，将前缀的 text_encoder_ 部分删除，否则工作流运行的时候会报错。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

⑥ 从网盘中下载 chatglm 文件，安装到 ComfyUI\models\LLM\checkpoints 中（如果没有就新建文件夹）。网盘中一共有三个模型可选，fp16 适合 13G 的显存，8bit 适合 8-9G ，4bit 适合 4 G，大家按实际需要选择一个下载即可（我的显存是 8G，实测只能带动 4bit 模型）。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

在基础工作流中，各个节点的作用如下：

(Down)load Kolors Model : 加载 Kwai-Kolors/Kolors 大模型，默认 fp16 精度； (Down)load ChatGLM3 Model：加载 ChatGLM3 文本编码器。不同的模型需要选择不同的精度，对应关系为：fp16-fp16；quan8-8bit；quna4-4bit。 Kolors Text Encode：提示词输入框，如果在提示词后加上丨小符号，可以隔离提示词，同时生成多张图像； Kolors Sampler：推荐使用 1024 分辨率，其余保持默认即可； Load VAE：可以使用 sdxl vae。

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

以上就是对国产开源绘画大模型 Kolors 的相关介绍，官方未来还将推出更多围绕 Kolors 的应用和插件，包括 ControlNet、IP-Adapter 和 LCM 等，我们可以期待它的未来发展。

文章相关链接：

kolors 官方模型地址： https://huggingface.co/Kwai-Kolors/Kolors ComfyUI Kolors 插件地址： https://github.com/kijai/ComfyUI-KwaiKolorsWrapper ChatGLM3 模型地址： https://huggingface.co/Kijai/ChatGLM3-safetensors/tree/main

快手 CEO 程一笑放出豪言：自研大模型有信心在半年内达 GPT4.0 水平

在今晚的快手业绩电话会上，快手创始人兼 CEO 程一笑披露了公司在生成式 AI 领域的进展。程一笑表示，公司在去年启动 AI 战略后，一步步扎实推进自研大模型的研发训练。程一笑还放出豪言，声称有信心在未来半年内，使大模型的综合性能达到 GPT4.0 的水平。同时，他还称快手文生图大模型“可图”综合性能已超过 Midjourney V5 的水平。至于目前大热的文生视频领域，程一笑透露称公司已于去年底推进专项研发。“这对短视频生态来说，是巨大的机会。未来，快手会把生成模型和生产者工具结合起来，不断帮助创作者降低创作门槛

3/20/2024 8:54:57 PM

清源

快手上线自研文生图大模型“可图”，消息称参数规模达十亿级

快手自研文生图大模型“可图”已于近日正式对外开放，其目前支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用。据界面新闻报道，这也是快手首次将其自研的系列大模型对外开放。报道援引知情人士消息称，“可图”大模型的参数规模达十亿级，这些数据来自开源社区、快手内部构建和自研 AI 技术合成，覆盖了常见的千万级中文实体概念，还引入强化学习和奖励模型技术（RLHF），解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。报道称，快手内部今年明确了大模型应用策略，

5/30/2024 10:55:44 PM

清源

快手文生图大模型“可图”宣布开源，现已上线微信小程序和网页版

感谢正在举行的世界人工智能大会期间，快手高级副总裁、主站业务与社区科学负责人盖坤宣布，快手文生图大模型可图正式开源，希望共建更加繁荣的文生图大模型社区生态。IT之家注意到，快手“可图”大模型于今年 5 月对外开放，目前已经上线网页版和微信小程序，支持文生图和图生图两类功能，可用于 AI 创作图像以及 AI 形象定制。IT之家实测发现，在 AI 创作模块，用户只需输入描述文字并选择期望的画作风格，即可快速获取专属的 AI 画作。其中，画作风格可以选择默认、皮克斯、卡通盲盒、新海诚、动漫 3D、怀旧动漫、电子游戏、水彩

7/6/2024 10:49:03 AM

浩渺

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

国产开源绘画模型 Kolors！可生成中文字符，质量超越 SD3 与 MJ

一、Kolors 简介

二、ComfyUI 中使用 Kolors 模型

相关资讯

快手 CEO 程一笑放出豪言：自研大模型有信心在半年内达 GPT4.0 水平

快手上线自研文生图大模型“可图”，消息称参数规模达十亿级

快手文生图大模型“可图”宣布开源，现已上线微信小程序和网页版