抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

在AI生成图像领域，Stable Diffusion已经成为一个里程碑式的工具，凭借其强大的图像生成能力，被广泛应用于艺术创作、商业设计等领域。然而，生成高质量图像的过程常常需要付出大量的时间和内存，这对于硬件资源有限的设备来说是一大挑战。为了应对这一问题，北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp（简称Sdcpp）的优化方法，引入了Winograd算法和三个优化策略，最终整图生成速度最高可达到4.79倍，从此实现创作自由！

在AI生成图像领域，Stable Diffusion已经成为一个里程碑式的工具，凭借其强大的图像生成能力，被广泛应用于艺术创作、商业设计等领域。

然而，生成高质量图像的过程常常需要付出大量的时间和内存，这对于硬件资源有限的设备来说是一大挑战。

为了应对这一问题，北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp（简称Sdcpp）的优化方法，引入了Winograd算法和三个优化策略，最终整图生成速度最高可达到4.79倍，从此实现创作自由！

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

论文链接：https://arxiv.org/pdf/2412.05781

项目主页：https://github.com/SealAILab/stable-diffusion-cpp

Sdcpp是Stable Diffusion模型的C/C++实现，旨在无需外部依赖的情况下在CPU（以及可能配置GPU）上实现高效推理。Sdcpp作为一个高效的推理框架，不仅能够显著加速模型的运行，还能大幅减少内存占用。

Sdcpp的实现中，计算密集型的2D卷积运算是图像生成的主要瓶颈，虽然功能强大，但效率却不够理想，推理速度较慢，内存占用高。

为了解决这些问题，研究人员在Sdcpp的基础上，引入了Winograd算法，对Sdcpp中的卷积操作进行了革命性的改进，最终实现了性能与资源利用率的双提升。

主要优化策略为：

分步处理：将卷积拆解为滤波器和激活权重的预处理、预处理张量的逐元素乘法和中间结果的后处理三个阶段，提高运算效率。
局部优化：通过调整数据加载方式（散点存储和聚集加载优化），减少 L1 缓存的切换，最大限度地减少缓存交换，提升内存使用效率。
并行处理：分析算子间的关联性，将关联性较小的运算动态分配到不同的计算线程与核心上，充分利用多线程和多核心架构，动态分配计算任务，充分发挥硬件性能，减少图像生成延迟。

尤其是在M系列Mac设备上，优化了性能核心（P-core）和效率核心（E-core）的分工，使推理速度得到了显著提升。

多设备、多模型支持

优化后的Sdcpp框架支持多个设备和模型，包括：

主流Stable Diffusion模型：SDv1.4、v1.5、v2.1、SDXL和SDXL-Turbo；
不同硬件平台：Mac、Android、AMD等；
扩展模块：如支持LoRA，以及支持算子量化等，为用户提供更高的灵活性。

此外，该框架还支持并且优化了diffusion transformer模型中的算子，进一步拓展了应用场景。

速度提升，快！

通过实际测试，优化成果令人振奋！

单卷积层的加速表现：对于多种卷积层配置，推理速度平均提升超过2倍！

研究人员测试了在一些在SD生成图片过程中出现比较频繁的卷积层，计算了在这些单卷积层上，优化的Sdcpp相较于原版Sdcpp的加速效果。在不同的卷积层上，推理速度提升至少达到2倍。

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

整图生成速度对比：最高加速比达到4.79倍！

图像分辨率越大，方法的加速效果越明显。在生成1024×1024分辨率图像时，相比于原版Sdcpp，优化后的Sdcpp在M1 Pro以及M2 Max上的推理速度提升可超过4.6 倍（FP32 类型）。

对于其他图像尺寸和SD模型，优化的Sdcpp的加速效果也十分显著（如SDv1.5模型生成512×512图像时在M1 Pro上加速1.84 倍）。

显著的加速比主要得益于框架的局部优化（降低缓存交换并且提高内存使用效率），以及并行处理（动态分配计算任务并且提高运算并行度）。

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

更快的速度，不仅节省时间，更让创作更自由！

实例展示：更真实的生成效果

下图展示了使用 SDXL-Turbo 模型，原版Sdcpp以及我们优化的Sdcpp使用5步采样，所生成的图像对比：

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

可以看出，在相同配置和提示词下，优化后的Sdcpp不仅速度更快，生成的图像也更加细腻逼真，细节丰富，层次分明。

优化的Sdcpp能够支持不同硬件平台上（Mac、Android、AMD 等）各种主流SD模型（如SDv1.4、v1.5、v2.1、SDXL 和 SDXL-Turbo）的所有算子，确保使用这些SD模型能够生成高质量的图片。

{{userData.name}}已认证

抽卡效率提升4.8倍！东北大学等开源优化版Stable-Diffusion.cpp：分辨率越高越快，生成质量更好

多设备、多模型支持

实例展示：更真实的生成效果

OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下

Ilya宣判后GPT-5被曝屡训屡败，一次训数月，数据要人工从头构建

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！