智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

感谢智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ,该系列模型的能力已经上线“智谱清言”App。据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。
感谢智谱技术团队今天宣布开源文生图模型 CogView3 及 CogView3-Plus-3B ,该系列模型的能力已经上线“智谱清言”App。

智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

据介绍,CogView3 是一个基于级联扩散的 text2img 模型,其包含如下三个阶段:

  • 第一阶段:利用标准扩散过程生成 512x512 低分辨率的图像。

  • 第二阶段:利用中继扩散过程,执行 2 倍的超分辨率生成,从 512x512 输入生成 1024x1024 的图像。

  • 第三阶段:将生成结果再次基于中继扩散迭代,生成 2048×2048 高分辨率的图像。

智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

官方表示,在实际效果上,CogView3 在人工评估中比目前最先进的开源文本到图像扩散模型 SDXL 高出 77.0%,同时只需要 SDXL 大约 1/10 的推理时间。

CogView3-Plus 模型则在 CogView3(ECCV'24)的基础上引入了最新的 DiT 框架,以实现整体性能的进一步提升。据介绍,其采用 Zero-SNR 扩散噪声调度,并引入了文本-图像联合注意力机制。与常用的 MMDiT 结构相比,它在保持模型基本能力的同时,有效降低训练和推理成本。CogView-3Plus 使用潜在维度为 16 的 VAE。

智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

智谱开源文生图模型 CogView3-Plus,相关功能上线智谱清言 App

AI在线附地址如下:

开源仓库地址:

  • https://github.com/THUDM/CogView3

Plus 开源模型仓库:

  • https://huggingface.co/THUDM/CogView3-Plus-3B

  • https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

相关资讯

图生成扩散模型综述:算法与在分子和蛋白质建模上应用

论文简要回顾了扩散模型在图数据上的算法及相关应用的若干研究。论文链接::(Graph-based Data)可以保存现实世界实体(节点)之间丰富多样的关系信息,包括实体间的关联联系、属性特征、以及拓扑结构,已经在社交网络分析、推荐系统、生物信息学等领域有广泛的应用。图生成模型旨在理解和学习现有的图数据分布,并合成新的图样本。这对于研究图数据中潜在的图结构关系,理解现有数据中的模式、关联和隐藏的信息具有重要的意义。生成模型可以用于探索图数据不同尺度的关系、发现社区结构、预测节点属性等。主要的图生成范式分为两类:自回归

Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越

机器之能报道编辑:SIA一直以来,Midjourney  稳坐 AIGC 文生图的王座,少有威胁,直到这家公司的出现。8 月 23 日,生成式人工智能创业公司 Ideogram AI 正式官宣:「我们正在开发最先进的人工智能工具,使创意表达变得更容易、更有趣、更高效。」官网写道。团队核心成员也是谷歌大脑 Imagen 团队主要成员, Ideogram AI 也被认为试图将 Imagen 发扬光大:Mohammad Norouzi(CEO )、Jonathan Ho (联合创始人)、 William Chan 和 C

值得你花时间看的扩散模型教程,来自普渡大学

Diffusion 不仅可以更好地模仿,而且可以进行「创作」。扩散模型(Diffusion Model)是图像生成模型的一种。有别于此前 AI 领域大名鼎鼎的 GAN、VAE 等算法,扩散模型另辟蹊径,其主要思想是一种先对图像增加噪声,再逐步去噪的过程,其中如何去噪还原图像是算法的核心部分。而它的最终算法能够从一张随机的噪声图像中生成图像。近年来,生成式 AI 的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念,这是一种特殊的采样机制,克服了以前的方法中被