中文开源图片模型终于来了!智谱霸气发布 CogView4:中文 prompt 随便喂,汉字都能给你画出来!

还在苦苦寻觅能听懂中文的开源图片模型?现在,你可以彻底告别英文 prompt 的“束缚”了!国内 AI 巨头智谱 AI 霸气开源了全新文生图模型 CogView4,直接把中文图片生成技术推向了新高度! 这下,设计师们、内容创作者们,甚至是对 AI 绘画感兴趣的 “小白” 们,都能扬眉吐气,用咱自己的母语,玩转 AI 图像生成了!CogView4最大的亮点,就是它对中文的“超强理解力”!你再也不用对着翻译软件吭哧吭哧地把中文 prompt 翻译成英文,直接用最自然的中文 “指令”,就能让 CogView4秒懂你的 “画意”,精准生成你想要的画面! 更让人拍案叫绝的是,它可是首个能直接在画面中 “写” 出汉字的开源模型!

还在苦苦寻觅能听懂中文的开源图片模型?现在,你可以彻底告别英文 prompt 的“束缚”了!国内 AI 巨头智谱 AI 霸气开源了全新文生图模型 CogView4,直接把中文图片生成技术推向了新高度! 这下,设计师们、内容创作者们,甚至是对 AI 绘画感兴趣的 “小白” 们,都能扬眉吐气,用咱自己的母语,玩转 AI 图像生成了!

QQ20250304-134226.png

CogView4最大的亮点,就是它对中文的“超强理解力”!你再也不用对着翻译软件吭哧吭哧地把中文 prompt 翻译成英文,直接用最自然的中文 “指令”,就能让 CogView4秒懂你的 “画意”,精准生成你想要的画面! 更让人拍案叫绝的是,它可是首个能直接在画面中 “写” 出汉字的开源模型! 这简直是为中文用户量身打造的 “神笔马良”,让你的创意表达更加 “原汁原味”,再也不用担心画面中的文字 “水土不服” 了!

更给力的是,CogView4还彻底解放了图片尺寸和 prompt 长度的限制! 想生成 “巨幅” 宽屏海报? 没问题! 想要 “长篇大论” 式的 prompt 描述复杂场景? 随便输! CogView4都能轻松Hold住,满足你各种 “天马行空” 的创作需求,让你的想象力不再被 “条条框框” 所限制!

而且,CogView4可不是 “花架子”, 它在权威 DPG-Bench 基准测试中 “一举夺魁”,综合评分排名第一,实力可见一斑! 这意味着,CogView4不仅 “好用”,而且 “能打”, 在图像生成质量上也是杠杠的,绝对能满足你对画面品质的 “苛刻” 要求!

为了让更多开发者和用户 “玩转” CogView4, 智谱 AI 还贴心地表示,后续还会开源配套的 ControlNet、ComfyUI 支持和模型微调工具, 简直是把 “全套武功秘籍” 都奉上了! 这意味着,你不仅能 “开箱即用” CogView4的强大功能,还能根据自己的需求进行 “深度定制”, 打造更个性化、更强大的图像生成模型!

那么,CogView4究竟是如何炼成 “神功” 的呢? 简单来说,它主要在以下几个方面进行了 “技术升级”:

双语能力 “大跃进”: CogView4的 “大脑” 升级为了更强大的 GLM-4编码器, 中文、英文 “通吃”! 它还 “饱读诗书”, 学习了海量的中英双语图文数据, 彻底摆脱了以往中文模型 “英文不好使” 的尴尬局面, 真正做到了 “中英双语,自由切换”!

文本处理更 “聪明”: CogView4采用了 “动态文本长度” 技术, 就像一个 “智能裁缝”, 能根据 prompt 的长短 “量体裁衣”, 避免了传统固定长度方案的 “浪费” 和 “冗余”, 效率直接提升5%-30%! 这意味着, CogView4不仅理解 prompt 更精准, 生成速度也更快了!

分辨率生成更 “灵活”: CogView4采用了 “混合分辨率训练” 和 “二维旋转位置编码” 等 “黑科技”, 让它能够 “驾驭” 各种尺寸的图片生成, 无论是 “高清大图” 还是 “小巧精致” 都能轻松搞定! 它还采用了 Flow-matching 扩散模型和参数化线性动态噪声规划, 让图像生成过程更加 “丝滑” 和 “可控”!

训练流程更 “精细”: CogView4的训练过程堪称 “精雕细琢”, 经历了 “多阶段训练” 和 “人类偏好对齐” 等 “层层淬炼”, 从基础分辨率到泛分辨率,再到高质量数据微调, 每一步都力求 “精益求精”! 它还保留了 Share-param DiT 架构, 并为不同模态使用了独立的自适应层归一化, 让模型更加 “强大” 和 “高效”!

项目地址:https://github.com/THUDM/CogView4

相关资讯

智谱首个能生成汉字的开源文生图模型 CogView4 发布,60 亿参数

据悉,该模型在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA(最先进的)。该模型也是首个遵循 Apache 2.0 协议的图像生成模型。

智谱发布首个能生成汉字的开源文生图模型CogView4

2025年3月4日,北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。 该模型在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art),并遵循Apache2.0协议,是首个支持该协议的图像生成模型。 CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。

智谱开源文生图模型CogView4,支持中英双语提示词输入

智谱AI最新开源文生图模型CogView4正式亮相,CogView4不仅在参数数量上达到了6亿,还全面支持中文输入和中文文本到图像的生成,被称其为“首个能在画面中生成汉字的开源模型”。 CogView4以支持中英双语提示词输入为核心亮点,尤其擅长理解和遵循复杂的中文指令,成为中文内容创作者的福音。 作为首个能在图像中生成汉字的开源文生图模型,它填补了开源领域的一大空白。