国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

大家好,这里是和你们一起探索 AI 的花生~ 最近国内科技公司快手在 AI 方面接连发力,推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」,质量均位于同类模型前列,在国外互联网上都引起了广泛的关注和讨论,颇有异军突起之势。 其中「可图 Kolors」为开源模型,它不仅在生成质量上超过了前段时间推出的 SD3,与 Midjourney v6 模型不相上下,还支持识别中文提示词和生成中文字符,可谓是国产开源绘画模型之光,今天就为大

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

大家好,这里是和你们一起探索 AI 的花生~

最近国内科技公司快手在 AI 方面接连发力,推出了类 Sora 视频生成模型「可灵 Kling」、人像动画控制模型「Liveportait」、以及文生图扩散模型「可图 Kolors」,质量均位于同类模型前列,在国外互联网上都引起了广泛的关注和讨论,颇有异军突起之势。

其中「可图 Kolors」为开源模型,它不仅在生成质量上超过了前段时间推出的 SD3,与 Midjourney v6 模型不相上下,还支持识别中文提示词和生成中文字符,可谓是国产开源绘画模型之光,今天就为大家介绍一下 Kolors 的模型特点和使用方法。

相关推荐:

一、Kolors 简介

Kolors 是一个基于潜在扩散的大规模文本到图像生成模型,在数十亿个文本-图像对上训练而成。据官方介绍,Kolors 在图像生成质量、复杂提示词理解、字符文本内容渲染等方面都有优异表现,尤其擅长生成高质量、细节清晰的人像图片。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

Kolors 生成的图像

由于 Kolors 将 GLM (General Language Model, 通用语言模型)接入了文本编码器,所以它可以准确理解中文提示词的含义,即使提示词中包含复杂的对象、颜色和位置关系,也能处理得很好。在实际测试中,Kolor 对中文提示词的反应效果甚至比英文还好,这种直接输入中文就生成高质量图像带给人的感觉也非常棒。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

当然 Kolors 最令人惊喜的是它支持生成正确的中文字符,这应该是首个实现此功能的 AI 绘画大模型。文字支持黑体、手写、书法等多种字体,即使是笔画很复杂的字也能准确生成,是 AI 绘画发展的又一大重要进步。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

作为国产大模型,Kolors 对中式元素的呈现效果也非常棒。无论是长城、故宫、鸟巢这样的标志性建筑,还是猪脚饭、螺蛳粉、老婆饼这样的传统美食,Kolors 都能正确呈现出来。内容本土化是 AI 绘画用户的核心需求之一,大家肯定都希望输入提示词 “一个可爱的小男孩”后,得到的是一个中国男孩而不是白人小男孩的形象,Kolor 在这方面的改进可以说非常贴心了。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

在官方测评报告中,Kolors 在人类评估中的表现超过了现有的 SD3、Playground v2.5 等开源模型,在文本忠诚度、视觉吸引力,整体满意度上更是与 Midjourney v6 不相上下。在大模型评测平台 FlagEval 的 “文生图模型排行榜”中,Kolors 也获得第二名的好成绩,仅次于 DALL·E 3。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

大家可以在 Huggingface 上免费体验 Kolors 的图像生成效果,生成速度非常快,几秒就能返回结果。我直接用中文提示词出了几个图,测试其中文和中国元素生成能力,效果都非常不错。

Huggingface Kolors 在线试玩: https://huggingface.co/spaces/gokaygokay/Kolors

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

二、ComfyUI 中使用 Kolors 模型

Kolors 模型开源后 ComfyUI 社区很快就进行了跟进,@Kijia 已经制作了 ComfyUI-KwaiKolorsWrapper 节点,安装后即可在本地使用 Kolors 出图。需要注意的是 Kolors 目前仅允许用于学术研究,如果想商用,需要填写问卷并发送至 [email protected] 进行注册。

ComfyUI 安装步骤:

① 通过 ComfyUI Manager 安装 ComfyUI-KwaiKolorsWrapper 插件;

② 在 ComfyUI-KwaiKolorsWrapper 文件夹中打开终端,运行 pip install -r requirements.txt 命令,安装依赖项;.

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

③ KolorsWrapper 文件夹的 example 文件夹中,导入 kolors_example 工作流到 ComfyUI 中,这个工作流中的节点都是 Kolors 专属的,不同于一般的节点,大家在使用的时候注意区分。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

④ 工作流打开后,如果点击生成,后台会自动下载所需的各种模型文件,但这一步需要等待很长时间,容易出错,所以更推荐大家从我给的网盘资料中下载 Kolors 文件夹 ,放到根目录的 ComfyUI\models\diffusers 文件夹中。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

⑤ 如果你是从别处获得的模型资源,可以再多检查一步:进入 Kolors\ text_encoder 文件夹,找到所有名称带 text encoder 的文件,将前缀的 text_encoder_ 部分删除,否则工作流运行的时候会报错。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

⑥ 从网盘中下载 chatglm 文件,安装到 ComfyUI\models\LLM\checkpoints 中(如果没有就新建文件夹)。网盘中一共有三个模型可选,fp16 适合 13G 的显存,8bit 适合 8-9G ,4bit 适合 4 G,大家按实际需要选择一个下载即可(我的显存是 8G,实测只能带动 4bit 模型)。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

在基础工作流中,各个节点的作用如下:

(Down)load Kolors Model : 加载 Kwai-Kolors/Kolors 大模型,默认 fp16 精度; (Down)load ChatGLM3 Model:加载 ChatGLM3 文本编码器。不同的模型需要选择不同的精度,对应关系为:fp16-fp16;quan8-8bit;quna4-4bit。 Kolors Text Encode:提示词输入框,如果在提示词后加上丨小符号,可以隔离提示词,同时生成多张图像; Kolors Sampler:推荐使用 1024 分辨率,其余保持默认即可; Load VAE:可以使用 sdxl vae。

国产开源绘画模型 Kolors!可生成中文字符,质量超越 SD3 与 MJ

以上就是对国产开源绘画大模型 Kolors 的相关介绍,官方未来还将推出更多围绕 Kolors 的应用和插件,包括 ControlNet、IP-Adapter 和 LCM 等,我们可以期待它的未来发展。

文章相关链接:

kolors 官方模型地址: https://huggingface.co/Kwai-Kolors/Kolors ComfyUI Kolors 插件地址: https://github.com/kijai/ComfyUI-KwaiKolorsWrapper ChatGLM3 模型地址: https://huggingface.co/Kijai/ChatGLM3-safetensors/tree/main

相关资讯

快手 CEO 程一笑放出豪言:自研大模型有信心在半年内达 GPT4.0 水平

在今晚的快手业绩电话会上,快手创始人兼 CEO 程一笑披露了公司在生成式 AI 领域的进展。程一笑表示,公司在去年启动 AI 战略后,一步步扎实推进自研大模型的研发训练。程一笑还放出豪言,声称有信心在未来半年内,使大模型的综合性能达到 GPT4.0 的水平。同时,他还称快手文生图大模型“可图”综合性能已超过 Midjourney V5 的水平。至于目前大热的文生视频领域,程一笑透露称公司已于去年底推进专项研发。“这对短视频生态来说,是巨大的机会。未来,快手会把生成模型和生产者工具结合起来,不断帮助创作者降低创作门槛

快手上线自研文生图大模型“可图”,消息称参数规模达十亿级

快手自研文生图大模型“可图”已于近日正式对外开放,其目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用。据界面新闻报道,这也是快手首次将其自研的系列大模型对外开放。报道援引知情人士消息称,“可图”大模型的参数规模达十亿级,这些数据来自开源社区、快手内部构建和自研 AI 技术合成,覆盖了常见的千万级中文实体概念,还引入强化学习和奖励模型技术(RLHF),解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。报道称,快手内部今年明确了大模型应用策略,

快手文生图大模型“可图”宣布开源,现已上线微信小程序和网页版

感谢正在举行的世界人工智能大会期间,快手高级副总裁、主站业务与社区科学负责人盖坤宣布,快手文生图大模型可图正式开源,希望共建更加繁荣的文生图大模型社区生态。IT之家注意到,快手“可图”大模型于今年 5 月对外开放,目前已经上线网页版和微信小程序,支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。IT之家实测发现,在 AI 创作模块,用户只需输入描述文字并选择期望的画作风格,即可快速获取专属的 AI 画作。其中,画作风格可以选择默认、皮克斯、卡通盲盒、新海诚、动漫 3D、怀旧动漫、电子游戏、水彩