3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

在 2024 年 2 月 12 日,Stability.Ai 公司发布了新模型 Stable Cascade。 上线了一段时间的新模型,小伙伴们体验感如何呢?这篇文章和你深度聊聊~ 往期介绍:一、前言 Stable Cascade 模型最大的优点是是能生成带有文字的图片,文字出错率相比以前模型少很多; 其次是硬件要求降低,甚至与 sd1.5 相比,该架构比之前版本实现了 16 倍的成本降低; 最后一大亮点是模型更加理解提醒词语义。这篇文章带大家详细了解 Stable Cascade 模型。最后我整理打包了此模型,「

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

在 2024 年 2 月 12 日,Stability.Ai 公司发布了新模型 Stable Cascade。

上线了一段时间的新模型,小伙伴们体验感如何呢?这篇文章和你深度聊聊~

往期介绍:

一、前言

Stable Cascade 模型最大的优点是

是能生成带有文字的图片,文字出错率相比以前模型少很多;
其次是硬件要求降低,甚至与 sd1.5 相比,该架构比之前版本实现了 16 倍的成本降低;
最后一大亮点是模型更加理解提醒词语义。

这篇文章带大家详细了解 Stable Cascade 模型。最后我整理打包了此模型,「Stable cascade 模型+安置方法+工作流」整套放在了文章最后,伙伴们自行下载~

二、动机对比(Cascade 模型与 SDXL 模型)

左边利用 Cascade 模型出的动机图片

右边利用 SDXL 模型出图动机:

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

提醒词:text“stable”,Made from green shrub leaves,

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

提醒词:text“stable”,The text is made of colorful energy.

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

提醒词:A cute cat

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

提醒词:a cat eating a piece of cheese

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

提醒词:A high-definition full body photo of a beautiful Asian girl in a summer park,full-size photograph,full-size photograph

通过以上的图片,小伙伴更喜欢哪种模型出的动机呢~

根据民间给到的评估结论,在几乎所有比较中,Stable Cascade 在理解提醒词语义方面和美观质量方面都表现最好。

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

Stable Cascade 模型和其他模型的数据对比

三、Cascade 模型是什么?

Cascade 模型与之前的 sd 模型相比,主要区别是可以在更小的潜空间中工作。

潜空间可以简单理解为 ai 计算生成图片的区域,潜在空间越小,推理速度就越快,训练成本也就越低。

之前的 sd 模型如果想要生成一张 1024*1024 的图片,在潜空间的编码为 128*128,利用的收缩因子为 8,可以简单的理解为 1024*1024 的图片除以 8(收缩因子)等于在潜空间的编码大小 128*128。

而 Stable Cascade 的收缩系数为 42,这意味着可以将 1024×1024 图象,在潜空间的编码为 24×24,这样就可以利用更小的潜空间尺寸,并且实现清晰的图象输出。甚至与 sd1.5 相比,该架构比之前版本实现了 16 倍的成本降低。

因此,这种模型非常适合快速的生成高质量图片。并且当前已知的扩展(如微调、LoRA、ControlNet、IP 适配器、LCM 等)也可以通过此方法实现。

四、Cascade 的文件结构

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

Stable Cascade 模型逻辑流程图

1. Stable Cascade 由三个模型组成

Stage A、Stage B 和 Stage C,代表级联生成图象。

「级联」是指多个系统、设备或组件按照一定的顺序依次连接起来,形成一个整体,其中前一个系统、设备或组件的输出作为后一个的输入。因此得名“Stable Cascade”。

2. Stable Cascade 如何级联运行

A 阶段和 B 阶段用于收缩图象,类似于 stable diffusion 中 VAE 的工作。然而,通过这种设置,可以实现更高的图象收缩。此外,阶段 C 负责在给定文本提醒的情况下生成小的 24 x 24 潜伏。

比如输入提醒词“鳄梨形状的扶手椅”,就会进入到第一步潜在的生成器,并且利用 stage C 模型生成较小的潜在图象,生成完成后,会进入到 stage B 和 stage A,对生成的潜在图象内容还原到像素空间。

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

Stable Cascade 模型输入提醒词后的生成流程

五、利用 Cascade 模型的流程和工作流搭建

1. 下载模型

①模型下载分为两个部分:Cascade 模型+clip 模型;

②cascade 模型又分为 stageA,stageB,stageC,民间对 stage C 和 stage B 分别提供了两个版本,每个模型只需要下载其中一个即可;

③其中 stage C 提供 10 亿和 36 亿参数版本,民间强烈建议利用 36 亿版本,生成的图象会有更加有细节。

Stage B 的两个版本分别达到 7 亿和 15 亿个参数。15 亿擅长重建微小而精细的细节。

④最后,Stage A 包含 2000 万个参数,只有一个版本直接下载默认版本的即可。

如果你的电脑性能足够,当前建议直接下载较大文件体积的模型,能够获得更好的结果。

clip 模型在 text_encoder 文件夹,只有一个版本,下载 model.safetensors 模型即可。

这些模型我也打包好了,放在文章的最后,可以直接下载利用。

2. 安置模型

将 stage C 和 stage B 这两个模型搁置到 ComfyUI 根目录\ComfyUI\models\unet 文件夹中。

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

stage C 和 stage B 这两个模型搁置的文件位置

stage A 模型搁置到 ComfyUI 根目\ComfyUI\models\vae 文件夹中

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

stage A 模型搁置的文件位置

最后将 clip 模型搁置到 ComfyUI 根目录\ComfyUI\models\clip 文件夹中,这样利用 cascade 的模型安置也完成了。

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

clip 模型搁置的位置

3. 革新 Comfyui 版本

将 comfyui 革新到最新版本即可,民间将需要的模块已经同步进模型包了,

comfyui 的革新方法,打开秋葉的启动器,具体怎么将秋葉启动器安置到民间的 comfyui 包中,可以参考这条视频的方法。

一分钟教你利用秋葉启动器对 Comfyui 进行升降版本,版本管理:

当视频在手机上无法加载,可前往PC查看。

点击“版本管理”-右上角的“一键革新”按钮,即可将 comfyui 革新到最新版本。

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

秋葉启动器安置到民间的 comfyui 包,进行一键革新

4. 工作流搭建

拿到民间革新的 cascade 工作流之后,工作流应该会默认安置好这四个模型,你也可以点击模块上的模型加载位置检查模型是否加载完成。

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

四个模型安置位置

并且需要注意 load clip 模块上,模型的种类是否选择的是“stable_cascade”,并且加载的是刚刚下载的 clip 模型,你也可以给这个 clip 模型修改一下名称,例如“cascade_clip_model”这样就不会与其他的 clip 模型混淆。

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

确定模型种类的位置,千万别混淆了

完成以上设置之后,就可以填写提醒词,进行图象生成了。

4. Cascade 模型动机展示

文字相关:在 6 个及以下字母的单词生成的准确率非常高,准确率能达到 80%。但是超出 7 个字母后,想要直接生成拼写无误的单词比较困难,准确率在 20%左右。

文字动机如下:

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

电影海报动机如下:

3000字干货!五个章节深入掌握 Stable Cascade(附模型下载)

最后总结

新模型发布:Stable Cascade 在研究预览中发布,采用三阶段方法,提高了质量、灵活性、微调能力和效率,同时进一步降低了硬件要求。

技术细节:Stable Cascade 包括三个阶段(A、B、C),通过分层收缩图象,实现了利用高度收缩的潜在空间达到显著的输出动机。

训练和微调:提供了针对不同阶段的训练和微调脚本,特别是 Stage C,可以单独进行训练或微调,显著降低成本。

参数规模与效率:Stage C 提供 10 亿与 36 亿参数两种模型,Stage B 提供 7 亿与 15 亿参数两种模型,强调了效率和质量的平衡。

结语

以上,既然看到这里了,如果这篇文章能够帮助到你,或者觉得不错,随手点个赞、在看、转发三连吧~如果想要第一时间收到推送,也可以给我个星标~谢谢你看我的文章。

给TA打赏
共{{data.count}}人
人已打赏
应用

完善AI软硬件生态,偶像集团在MWC2024发布最新AI PC

2024-2-27 5:32:00

应用

第三波!2024年2月精选实用设想对象合集

2024-2-27 8:15:21

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索