大家好,我是花生~
最近 Stability AI 又接连推出了 2 个新的模型:Stable Diffusion 3 和 Stable Cascade,在图象生成效率和品质上比半年前推出的 SDXL 1.0 有了明显提拔,今天就为大家介绍一下 2 款新模型的特点和用法。
:
一、Stable Diffusion 3 简介
民间介绍: https://stability.ai/news/stable-diffusion-3
加入等候名单: https://stability.ai/stablediffusion3
2 月 22 号,Stability AI 发布了新模型 Stable Diffusion 3(下面简称为 SD 3.0),这也是 Stable Diffusion 系列的最新模型。发布公告中, Stability AI 称 SD 3.0 是他们 “功能最强大” 的模型,还特别强调利用的是 Diffusion Transformer 架构(感觉是受了 OpenAI Sora 模型的刺激)。模型资源目前还没有放出来,想体验的话可以加入等候名单。
民间介绍 SD 3.0 模型在多主题提醒、图象品质和拼写能力方面有了极大的提拔,我用它提醒词在 Midjourney 生成了图象,下面是对比结果。整体来说 SD 3.0 的能力的确极度强,图象品质和 Midjourney V6 模型极度接近,在文本内容生成上的表现甚至超过了 Midjourney V6,不过 V6 在细节丰富度和风格美感上还是有自己独特的优势。
除了文生图能力,Stability AI 创始人 Emad 还放出了一段演示视频,显示 SD 3.0 支持用文字修改画面内容以及将图象转换为视频。如果 SD 3.0 模型能开源,肯定会给开源 AI 绘画生态带来一轮新的提拔,这是极度值得期待的。
二、Stable Cascade 模型简介
民间 Github 主页: https://github.com/Stability-AI/StableCascade
其实在 2 月 12 号,也就是 SD 3.0 发布 12 天之前,Stability AI 已经发布过一款新模型 Stable Cascade 了,这是一个基于 Würstchen 架构的新文本-图象模型,相关代码和资源在公布,但目前只允许用于非商业目的。
Stable Cascade 生成的图象
与 Stable Diffusion 系列模型不同, Stable Cascade 由三个模型组成:Stage A、Stage B 和 Stage C,Stage A 是 VAE 模型,Stage B 和 Stage C 是扩散模型。它们分别处理图象生成的不同阶段,且一个模型的输出会成为下一个模型的输出,也就是 “级联”(Cascade)”,这也是 Stable Cascade 名称的由来。
当我们输出提醒词后,首是 Stage C 模型会根据给定的文本生成 24*24 的低分辨率潜像(Latents),然后输出到 Stage B 模型中进行缩小,完成后再输出到 Stage A 模型中再次缩小并转换为像素空间,最终生成我们需要的图象。
除了文生图,Stable Cascade 还支持图生图、图象生成变体、Inpainting /Outpainting、Controlnet、Lora 及高清缩小等功能。由于 Stable Cascade 与其他 SD 模型相比利用更小的潜在空间进行训练和推理,因此推理速度更快,训练也更高效,对开发来说有极度自由灵活的调节空间,或许之后它能发展成在 Stable Diffusion、Stable Diffusion XL 之后又一个新的生态体系。
三、在 ComfyUI 中安装利用 Stable Cascade
ComfyUI 已经民间支持 Stable Cascade 的利用了,并将原本的 7 个模型整合成为 2 个,不仅图象品质提拔了,操作流程也更简化了,利用起来方便。下面以文生图工作流为例讲一下 Stable Cascade 的用法。
1. 首先下载 stable_cascade_stage_c.safetensors 和 stable_cascade_stage_b.safetensors 两个大模型,放入根目录的 models/checkpoints 文件夹中(如果是和 WebUI 共用模型这放到 WebUI 的根目录中)。
模型地址: https://huggingface.co/stabilityai/stable-cascade/tree/main/comfyui_checkpoints 文末有资源包
2. 启动 ComfyUI, 将文生图基础工作流拖入工作界面。填入自己的提醒词,设置好分辨率(推荐 1024-2048px),再检查一下 Stage C 和 Stage B 内的是否选择了对应的大模型,其他参数保持不变,再点击生成就可以了。
注意:运行过程中肯可能出现的报错:Error occurred when executing CheckpointLoaderSimple:
unet_dtype() got an unexpected keyword argument ‘supported_dtypes’
解决方式是更新自定义节点 ComfyUI_smZNodes,然后重启 ComfyUI 就可以解决了
从利用体验来说,Stable Cascade 对显存占用更少,6G 就能跑通,8G 的显存跑一张 1024*1024 的图大概是 65-90 s,比 SDXL 了快了一倍。图象品质比 SDXL 要好很多,与 Midjourney V6 相比还是有差距,但是在生成带文字内容的图象(比如 logo,海报等)时,Stable Cascade 也会有比较好的效果。