3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

在 2024 年 2 月 12 日，Stability.Ai 公司发布了新模型 Stable Cascade。上线了一段时间的新模型，小伙伴们体验感如何呢？这篇文章和你深度聊聊~ 往期介绍：一、前言 Stable Cascade 模型最大的优点是是能生成带有文字的图片，文字出错率相比以前模型少很多；其次是硬件要求降低，甚至与 sd1.5 相比，该架构比之前版本实现了 16 倍的成本降低；最后一大亮点是模型更加理解提醒词语义。这篇文章带大家详细了解 Stable Cascade 模型。最后我整理打包了此模型，「

在 2024 年 2 月 12 日，Stability.Ai 公司发布了新模型 Stable Cascade。

上线了一段时间的新模型，小伙伴们体验感如何呢？这篇文章和你深度聊聊~

往期介绍：

一、前言

Stable Cascade 模型最大的优点是

是能生成带有文字的图片，文字出错率相比以前模型少很多；
其次是硬件要求降低，甚至与 sd1.5 相比，该架构比之前版本实现了 16 倍的成本降低；
最后一大亮点是模型更加理解提醒词语义。

这篇文章带大家详细了解 Stable Cascade 模型。最后我整理打包了此模型，「Stable cascade 模型+安置方法+工作流」整套放在了文章最后，伙伴们自行下载~

二、动机对比（Cascade 模型与 SDXL 模型）

左边利用 Cascade 模型出的动机图片

右边利用 SDXL 模型出图动机：

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

提醒词：text“stable”，Made from green shrub leaves,

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

提醒词：text“stable”，The text is made of colorful energy.

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

提醒词：A cute cat

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

提醒词：a cat eating a piece of cheese

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

提醒词：A high-definition full body photo of a beautiful Asian girl in a summer park，full-size photograph，full-size photograph

通过以上的图片，小伙伴更喜欢哪种模型出的动机呢~

根据民间给到的评估结论，在几乎所有比较中，Stable Cascade 在理解提醒词语义方面和美观质量方面都表现最好。

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

Stable Cascade 模型和其他模型的数据对比

三、Cascade 模型是什么？

Cascade 模型与之前的 sd 模型相比，主要区别是可以在更小的潜空间中工作。

潜空间可以简单理解为 ai 计算生成图片的区域，潜在空间越小，推理速度就越快，训练成本也就越低。

之前的 sd 模型如果想要生成一张 1024*1024 的图片，在潜空间的编码为 128*128，利用的收缩因子为 8，可以简单的理解为 1024*1024 的图片除以 8（收缩因子）等于在潜空间的编码大小 128*128。

而 Stable Cascade 的收缩系数为 42，这意味着可以将 1024×1024 图象，在潜空间的编码为 24×24，这样就可以利用更小的潜空间尺寸，并且实现清晰的图象输出。甚至与 sd1.5 相比，该架构比之前版本实现了 16 倍的成本降低。

因此，这种模型非常适合快速的生成高质量图片。并且当前已知的扩展（如微调、LoRA、ControlNet、IP 适配器、LCM 等）也可以通过此方法实现。

四、Cascade 的文件结构

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

Stable Cascade 模型逻辑流程图

1. Stable Cascade 由三个模型组成

Stage A、Stage B 和 Stage C，代表级联生成图象。

「级联」是指多个系统、设备或组件按照一定的顺序依次连接起来，形成一个整体，其中前一个系统、设备或组件的输出作为后一个的输入。因此得名“Stable Cascade”。

2. Stable Cascade 如何级联运行

A 阶段和 B 阶段用于收缩图象，类似于 stable diffusion 中 VAE 的工作。然而，通过这种设置，可以实现更高的图象收缩。此外，阶段 C 负责在给定文本提醒的情况下生成小的 24 x 24 潜伏。

比如输入提醒词“鳄梨形状的扶手椅”，就会进入到第一步潜在的生成器，并且利用 stage C 模型生成较小的潜在图象，生成完成后，会进入到 stage B 和 stage A，对生成的潜在图象内容还原到像素空间。

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

Stable Cascade 模型输入提醒词后的生成流程

五、利用 Cascade 模型的流程和工作流搭建

1. 下载模型

①模型下载分为两个部分：Cascade 模型+clip 模型;

②cascade 模型又分为 stageA,stageB,stageC,民间对 stage C 和 stage B 分别提供了两个版本，每个模型只需要下载其中一个即可;

③其中 stage C 提供 10 亿和 36 亿参数版本，民间强烈建议利用 36 亿版本，生成的图象会有更加有细节。

Stage B 的两个版本分别达到 7 亿和 15 亿个参数。15 亿擅长重建微小而精细的细节。

④最后，Stage A 包含 2000 万个参数，只有一个版本直接下载默认版本的即可。

如果你的电脑性能足够，当前建议直接下载较大文件体积的模型，能够获得更好的结果。

clip 模型在 text_encoder 文件夹，只有一个版本，下载 model.safetensors 模型即可。

这些模型我也打包好了，放在文章的最后，可以直接下载利用。

2. 安置模型

将 stage C 和 stage B 这两个模型搁置到 ComfyUI 根目录\ComfyUI\models\unet 文件夹中。

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

stage C 和 stage B 这两个模型搁置的文件位置

stage A 模型搁置到 ComfyUI 根目\ComfyUI\models\vae 文件夹中

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

stage A 模型搁置的文件位置

最后将 clip 模型搁置到 ComfyUI 根目录\ComfyUI\models\clip 文件夹中，这样利用 cascade 的模型安置也完成了。

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

clip 模型搁置的位置

3. 革新 Comfyui 版本

将 comfyui 革新到最新版本即可，民间将需要的模块已经同步进模型包了，

comfyui 的革新方法，打开秋葉的启动器，具体怎么将秋葉启动器安置到民间的 comfyui 包中，可以参考这条视频的方法。

一分钟教你利用秋葉启动器对 Comfyui 进行升降版本，版本管理：

当视频在手机上无法加载，可前往PC查看。

点击“版本管理”-右上角的“一键革新”按钮，即可将 comfyui 革新到最新版本。

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

秋葉启动器安置到民间的 comfyui 包，进行一键革新

4. 工作流搭建

拿到民间革新的 cascade 工作流之后，工作流应该会默认安置好这四个模型，你也可以点击模块上的模型加载位置检查模型是否加载完成。

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

四个模型安置位置

并且需要注意 load clip 模块上，模型的种类是否选择的是“stable_cascade”，并且加载的是刚刚下载的 clip 模型，你也可以给这个 clip 模型修改一下名称，例如“cascade_clip_model”这样就不会与其他的 clip 模型混淆。

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

确定模型种类的位置，千万别混淆了

完成以上设置之后，就可以填写提醒词，进行图象生成了。

4. Cascade 模型动机展示

文字相关：在 6 个及以下字母的单词生成的准确率非常高，准确率能达到 80%。但是超出 7 个字母后，想要直接生成拼写无误的单词比较困难，准确率在 20%左右。

文字动机如下：

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

电影海报动机如下：

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

最后总结

新模型发布：Stable Cascade 在研究预览中发布，采用三阶段方法，提高了质量、灵活性、微调能力和效率，同时进一步降低了硬件要求。

技术细节：Stable Cascade 包括三个阶段（A、B、C），通过分层收缩图象，实现了利用高度收缩的潜在空间达到显著的输出动机。

训练和微调：提供了针对不同阶段的训练和微调脚本，特别是 Stage C，可以单独进行训练或微调，显著降低成本。

参数规模与效率：Stage C 提供 10 亿与 36 亿参数两种模型，Stage B 提供 7 亿与 15 亿参数两种模型，强调了效率和质量的平衡。

结语

以上，既然看到这里了，如果这篇文章能够帮助到你，或者觉得不错，随手点个赞、在看、转发三连吧~如果想要第一时间收到推送，也可以给我个星标~谢谢你看我的文章。

{{userData.name}}已认证

3000字干货！五个章节深入掌握 Stable Cascade（附模型下载）

一、前言

二、动机对比（Cascade 模型与 SDXL 模型）

三、Cascade 模型是什么？

四、Cascade 的文件结构

五、利用 Cascade 模型的流程和工作流搭建

最后总结

结语

完善AI软硬件生态，偶像集团在MWC2024发布最新AI PC

第三波！2024年2月精选实用设想对象合集

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩