智谱开源文生图模型CogView4，支持中英双语提示词输入

2025-03-04 01:44

智谱AI最新开源文生图模型CogView4正式亮相，CogView4不仅在参数数量上达到了6亿，还全面支持中文输入和中文文本到图像的生成，被称其为“首个能在画面中生成汉字的开源模型”。 CogView4以支持中英双语提示词输入为核心亮点，尤其擅长理解和遵循复杂的中文指令，成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型，它填补了开源领域的一大空白。

智谱AI最新开源文生图模型CogView4正式亮相，CogView4不仅在参数数量上达到了6亿，还全面支持中文输入和中文文本到图像的生成，被称其为“首个能在画面中生成汉字的开源模型”。

CogView4以支持中英双语提示词输入为核心亮点，尤其擅长理解和遵循复杂的中文指令，成为中文内容创作者的福音。作为首个能在图像中生成汉字的开源文生图模型，它填补了开源领域的一大空白。此外，该模型支持生成任意宽高图片，并能处理任意长度的提示词输入，展现出极高的灵活性。

CogView4的双语能力得益于技术架构的全面升级。其文本编码器升级为GLM-4，支持中英双语输入，彻底打破了此前开源模型仅支持英文的局限。据悉，该模型使用中英双语图文对进行训练，确保其在中文语境下的生成质量。

在文本处理上，CogView4摒弃了传统的固定长度设计，采用动态文本长度方案。当平均描述文本为200-300个词元时，相较于固定512词元的传统方案，冗余减少约50%，训练效率提升5%-30%。这一创新不仅优化了计算资源，也让模型能更高效地处理长短不一的提示词。

CogView4支持生成任意分辨率的图像，背后是多项技术突破。模型采用混合分辨率训练，结合二维旋转位置编码和内插位置表示，适应不同尺寸需求。此外，其基于Flow-matching扩散模型和参数化线性动态噪声规划，进一步提升了生成图像的质量和多样性。

CogView4的训练流程分为多个阶段:从基础分辨率训练开始，到泛分辨率适配，再到高质量数据微调，最后通过人类偏好对齐优化输出。这一过程保留了Share-param DiT架构，同时为不同模态引入独立的自适应层归一化，确保模型在多种任务中的稳定性与一致性。

项目:https://github.com/THUDM/CogView4

解决“佛跳墙、老婆饼”问题，联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

同时通过引入海量中文图文对数据进行预训练，模型对中文专属名词，如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象，以及中文菜谱等英文模型无法理解的名词，都能够准确理解并生成对应的图片。

1/8/2025 6:01:41 PM

汪淼

智谱开源AI绘图CogView4，曾经的开源之光回来了！

智谱开源 AI 绘图 CogView4，曾经的开源之光回来了。昨天连更两篇，今天想休息一下，结果。真的快肝吐了，感觉自从 DeepSeek 开源统治地球之后。

3/5/2025 12:01:33 AM

数字生命卡兹克

智谱首个能生成汉字的开源文生图模型 CogView4 发布，60 亿参数

据悉，该模型在 DPG-Bench 基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA（最先进的）。该模型也是首个遵循 Apache 2.0 协议的图像生成模型。

3/4/2025 12:23:59 PM

汪淼

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 50组多风格提示词，全面测评Midjourney V7生图效果！ Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o 全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 大语言模型神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 架构

顶部

智谱开源文生图模型CogView4，支持中英双语提示词输入

相关资讯

解决“佛跳墙、老婆饼”问题，联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

智谱开源AI绘图CogView4，曾经的开源之光回来了！

智谱首个能生成汉字的开源文生图模型 CogView4 发布，60 亿参数