新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

大家好,我是花生~ 最近 Stability AI 又接连推出了 2 个新的模型:Stable Diffusion 3 和 Stable Cascade,在图象生成效率和品质上比半年前推出的 SDXL 1.0 有了明显提拔,今天就为大家介绍一下 2 款新模型的特点和用法。 :一、Stable Diffusion 3 简介 民间介绍: 加入等候名单: 2 月 22 号,Stability AI 发布了新模型 Stable Diffusion 3(下面简称为 SD 3.0),这也是 Stable Diffusion

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

大家好,我是花生~

最近 Stability AI 又接连推出了 2 个新的模型:Stable Diffusion 3 和 Stable Cascade,在图象生成效率和品质上比半年前推出的 SDXL 1.0 有了明显提拔,今天就为大家介绍一下 2 款新模型的特点和用法。

一、Stable Diffusion 3 简介

民间介绍: https://stability.ai/news/stable-diffusion-3

加入等候名单: https://stability.ai/stablediffusion3

2 月 22 号,Stability AI 发布了新模型 Stable Diffusion 3(下面简称为 SD 3.0),这也是 Stable Diffusion 系列的最新模型。发布公告中, Stability AI 称 SD 3.0 是他们 “功能最强大” 的模型,还特别强调利用的是 Diffusion Transformer 架构(感觉是受了 OpenAI Sora 模型的刺激)。模型资源目前还没有放出来,想体验的话可以加入等候名单。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

民间介绍 SD 3.0 模型在多主题提醒、图象品质和拼写能力方面有了极大的提拔,我用它提醒词在 Midjourney 生成了图象,下面是对比结果。整体来说 SD 3.0 的能力的确极度强,图象品质和 Midjourney V6 模型极度接近,在文本内容生成上的表现甚至超过了 Midjourney V6,不过 V6 在细节丰富度和风格美感上还是有自己独特的优势。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

除了文生图能力,Stability AI 创始人 Emad 还放出了一段演示视频,显示 SD 3.0 支持用文字修改画面内容以及将图象转换为视频。如果 SD 3.0 模型能开源,肯定会给开源 AI 绘画生态带来一轮新的提拔,这是极度值得期待的。

二、Stable Cascade 模型简介

民间 Github 主页: https://github.com/Stability-AI/StableCascade

其实在 2 月 12 号,也就是 SD 3.0 发布 12 天之前,Stability AI 已经发布过一款新模型 Stable Cascade 了,这是一个基于 Würstchen 架构的新文本-图象模型,相关代码和资源在公布,但目前只允许用于非商业目的。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

Stable Cascade 生成的图象

与 Stable Diffusion 系列模型不同, Stable Cascade 由三个模型组成:Stage A、Stage B 和 Stage C,Stage A 是 VAE 模型,Stage B 和 Stage C 是扩散模型。它们分别处理图象生成的不同阶段,且一个模型的输出会成为下一个模型的输出,也就是 “级联”(Cascade)”,这也是 Stable Cascade 名称的由来。

当我们输出提醒词后,首是 Stage C 模型会根据给定的文本生成 24*24 的低分辨率潜像(Latents),然后输出到 Stage B 模型中进行缩小,完成后再输出到 Stage A 模型中再次缩小并转换为像素空间,最终生成我们需要的图象。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

除了文生图,Stable Cascade 还支持图生图、图象生成变体、Inpainting /Outpainting、Controlnet、Lora 及高清缩小等功能。由于 Stable Cascade 与其他 SD 模型相比利用更小的潜在空间进行训练和推理,因此推理速度更快,训练也更高效,对开发来说有极度自由灵活的调节空间,或许之后它能发展成在 Stable Diffusion、Stable Diffusion XL 之后又一个新的生态体系。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

三、在 ComfyUI 中安装利用 Stable Cascade

ComfyUI 已经民间支持 Stable Cascade 的利用了,并将原本的 7 个模型整合成为 2 个,不仅图象品质提拔了,操作流程也更简化了,利用起来方便。下面以文生图工作流为例讲一下 Stable Cascade 的用法。

1. 首先下载 stable_cascade_stage_c.safetensors 和 stable_cascade_stage_b.safetensors 两个大模型,放入根目录的 models/checkpoints 文件夹中(如果是和 WebUI 共用模型这放到 WebUI 的根目录中)。

模型地址: https://huggingface.co/stabilityai/stable-cascade/tree/main/comfyui_checkpoints 文末有资源包

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

2. 启动 ComfyUI, 将文生图基础工作流拖入工作界面。填入自己的提醒词,设置好分辨率(推荐 1024-2048px),再检查一下 Stage C 和 Stage B 内的是否选择了对应的大模型,其他参数保持不变,再点击生成就可以了。

注意:运行过程中肯可能出现的报错:Error occurred when executing CheckpointLoaderSimple:
unet_dtype() got an unexpected keyword argument ‘supported_dtypes’
解决方式是更新自定义节点 ComfyUI_smZNodes,然后重启 ComfyUI 就可以解决了

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

从利用体验来说,Stable Cascade 对显存占用更少,6G 就能跑通,8G 的显存跑一张 1024*1024 的图大概是 65-90 s,比 SDXL 了快了一倍。图象品质比 SDXL 要好很多,与 Midjourney V6 相比还是有差距,但是在生成带文字内容的图象(比如 logo,海报等)时,Stable Cascade 也会有比较好的效果。

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

新模型 Stable Diffusion 3 与 Stable Cascade 全面解析

给TA打赏
共{{data.count}}人
人已打赏
应用

7000字干货!Sora 提醒词秘籍和竞品效果对比

2024-2-26 7:38:08

应用

毫末龙年春节智驾数据发布:智驾里程994万千米,小魔驼配送近5000单

2024-2-26 10:19:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索