智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

2024-10-14 11:13

感谢智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ，该系列模型的能力已经上线“智谱清言”App。据介绍，CogView3 是一个基于级联扩散的 text2img 模型，其包含如下三个阶段：第一阶段：利用标准扩散过程生成 512x512 低分辨率的图像。第二阶段：利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。

感谢智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ，该系列模型的能力已经上线“智谱清言”App。

据介绍，CogView3 是一个基于级联扩散的 text2img 模型，其包含如下三个阶段：

第一阶段：利用标准扩散过程生成 512x512 低分辨率的图像。
第二阶段：利用中继扩散过程，执行 2 倍的超分辨率生成，从 512x512 输入生成 1024x1024 的图像。
第三阶段：将生成结果再次基于中继扩散迭代，生成 2048×2048 高分辨率的图像。

智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

官方表示，在实际效果上，CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%，同时只需要 SDXL 大约 1/10 的推理时间。

CogView3-Plus 模型则在 CogView3（ECCV'24）的基础上引入了最新的 DiT 框架，以实现整体性能的进一步提升。据介绍，其采用 Zero-SNR 扩散噪声调度，并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比，它在保持模型基本能力的同时，有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

AI在线附地址如下：

开源仓库地址：

https://github.com/THUDM/CogView3

Plus 开源模型仓库：

https://huggingface.co/THUDM/CogView3-Plus-3B
https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

图生成扩散模型综述：算法与在分子和蛋白质建模上应用

论文简要回顾了扩散模型在图数据上的算法及相关应用的若干研究。论文链接：：(Graph-based Data)可以保存现实世界实体（节点）之间丰富多样的关系信息，包括实体间的关联联系、属性特征、以及拓扑结构，已经在社交网络分析、推荐系统、生物信息学等领域有广泛的应用。图生成模型旨在理解和学习现有的图数据分布，并合成新的图样本。这对于研究图数据中潜在的图结构关系，理解现有数据中的模式、关联和隐藏的信息具有重要的意义。生成模型可以用于探索图数据不同尺度的关系、发现社区结构、预测节点属性等。主要的图生成范式分为两类：自回归

6/30/2023 6:29:00 PM

ScienceAI

Midjourney 迎来最强对手，种子轮融资大佬云集，测试版让马斯克一「键」穿越

机器之能报道编辑：SIA一直以来，Midjourney 稳坐 AIGC 文生图的王座，少有威胁，直到这家公司的出现。8 月 23 日，生成式人工智能创业公司 Ideogram AI 正式官宣：「我们正在开发最先进的人工智能工具，使创意表达变得更容易、更有趣、更高效。」官网写道。团队核心成员也是谷歌大脑 Imagen 团队主要成员， Ideogram AI 也被认为试图将 Imagen 发扬光大：Mohammad Norouzi（CEO ）、Jonathan Ho (联合创始人）、 William Chan 和 C

8/24/2023 5:35:00 PM

机器之能

值得你花时间看的扩散模型教程，来自普渡大学

Diffusion 不仅可以更好地模仿，而且可以进行「创作」。扩散模型（Diffusion Model）是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法，扩散模型另辟蹊径，其主要思想是一种先对图像增加噪声，再逐步去噪的过程，其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。近年来，生成式 AI 的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了以前的方法中被

4/6/2024 11:45:00 PM

机器之心

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

智谱开源文生图模型 CogView3-Plus，相关功能上线智谱清言 App

相关资讯

图生成扩散模型综述：算法与在分子和蛋白质建模上应用

Midjourney 迎来最强对手，种子轮融资大佬云集，测试版让马斯克一「键」穿越

值得你花时间看的扩散模型教程，来自普渡大学