Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

【新智元导读】重磅消息！Stable Diffusion 3，大概率会在明天开源。距离 2 月 SD3 的横空出世，已经过去了 4 个月。如果此事为真，生图圈子第一个出现开源碾压闭源的奇景！强大的 MMDiT 全新架构，将彻底改变 AI 生图的格局。现在，全体 AI 社区都在翘首以盼。万众瞩目的 Stable Diffusion 3，终于要正式开源了！几天前，在 Computex 2024 大会上，Stability AI 联合首席执行官 Christian Laforte 正式官宣：SD 3 Medium 将在

【新智元导读】重磅消息！Stable Diffusion 3，大概率会在明天开源。距离 2 月 SD3 的横空出世，已经过去了 4 个月。如果此事为真，生图圈子第一个出现开源碾压闭源的奇景！强大的 MMDiT 全新架构，将彻底改变 AI 生图的格局。现在，全体 AI 社区都在翘首以盼。

万众瞩目的 Stable Diffusion 3，终于要正式开源了！

几天前，在 Computex 2024 大会上，Stability AI 联合首席执行官 Christian Laforte 正式官宣：SD 3 Medium 将在 6 月 12 日公开发布。

据悉，之后还会开源 4B 和 8B 的版本。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

消息一出，网友们就激动地奔走相告。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

种种迹象表明，SD3 明天的开源应该是铁板钉钉了。

目前，ComfyUI 已经提交了对 SD3 支持的版本。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

网友表示，如果此事是真的，那可就太疯狂了，生图圈子将成第一个开源碾压闭源的赛道！

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

这边 AI 生图王者 Midjourney 刚刚放出功能更新，网友们就在评论区纷纷留言：SD3 一旦开源，你们就完蛋了。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

网友们纷纷搬好板凳，坐等 SD3 的权重发布了。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

欠债 1 亿的独角兽，仍坚持做开源英雄？

两个月前，Stable Diffusion 3 一横空出世，立刻在人类偏好评估中斩下 DALL-E 3 和 Midjourney v6，一举成为该畛域的 SOTA。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

因为攻克了 AI 图象生成畛域著名的「正确性」测试，SD3 一时名声大噪，引发了极大热度。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

虽然放出的模型效果惊艳全网，但选择开源也让公司的收入入不敷出。随后就是满身黑历史的 CEO 跑路、人才出走等负面事件，让 Stability AI 这头独角兽的前途风雨飘摇，一度陷入欠下 1 亿美元的「卖身」传闻。

在鼎盛时期的 Stability AI 收到过不少橄榄枝，却断然拒绝收购。然而亏损超 3000 万美元、拖欠 1 亿美元账单的事实，揭示了所有开源公司共同的困境 ——

如果选择将代码、权重和产品 API 免费开放，即便保留部分高级功能，也很难吸引到付费用户。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

如果在这种情况下，SD3 依然坚持开源，叫 Stability AI 一声「开源英雄」绝不为过。

强大的架构、更好的明暗对比度、提示遵循、训练结果、模型合并、图象分辨率……SD3 的开源给我们带来的贡献可太多了！

现在，所有人都在翘首以盼。

将对开源社区影响重大

Stable Diffusion3 的开源，为何意义如此重大？

在 reddit 的 StableDiffusion 社区，一位网友给出了以下总结，让我们从非技术视角，理解 SD3 的重要性，以及对 AI 社区的重大影响。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

作者表示，自己希望能让外行人都明白，为何 Stable Diffusion 3 如此重要。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

曾经 Stable Diffusion 的开源，就改变了游戏规则

VAE 是无名英雄

VAE（变分自编码器）非常特别，因为它让提供了 16 个通道的特征和颜色数据供我们使用，而之前的模型只有 4 个通道。

下面的四张图显示出，这将产生多大的影响。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

Emu 论文地址：https://arxiv.org/pdf/2309.15807

这也就意味着，模型在训练时会捕获更多细节。

不仅模型的质量会更好，而且实际上会带来更快的训练速度，从而使主要的 MMDiT 模型（也就是实现生成的主要模型）能够更好地捕获细节。

感兴趣的读者可以阅读下面这篇技术性解读：

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

文章地址：https://huggingface.co/blog/TimothyAlexisVass/explaining-the-sdxl-latent-space#the-8-bit-pixel-space-has-3-channels

与旧的模型相比，新的 16 通道 VAE 在 512×512 分辨率下的表现，可以说令人难以置信 —— 即使在较小的图象尺寸下，通道维度上的特征数量也足以捕获到很好的细节。

为了更好地说明这一点，我们可以用视频畛域的标准来做个类比 ——

VHS 和 DVD 都是标准定义的 480i / 480p，但 DVD 显然捕获到了更多细节，甚至在硬件和软件的升频器上表现也很好。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

或者，可以用复古游戏玩家的说法来类比 ——

复合视频线（Composite cables） -> SD1.X 的 VAE

S-Video 线 -> SDXL 的 VAE

组件视频线（Component cables） -> SD3 的 VAE

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

因此，将 VAE 应用到如今我们的 AI 工作流程中，一切都将变得更加高效。

在视频生成方面，则可以在低分辨率下训练以适应虚拟内存（VRAM），然后通过分辨率增强流程来保留细节。

我们不需要训练 / 微调文本编码器了

众所周知，训练文本编码器可以提升基于 SD1.X 模型和 SDXL 模型的性能。

然而在这位网友看来，从长远来看，这其实是低效的，因为在实际应用中存在大量的微调和模型合并。

这会在推理过程中导致大量的重新加权，从而引起混乱，使得在创作过程中捕获细节变得更加困难。

虽然在小规模应用中可以这样做，但随着社区的扩大，训练文本编码器就变得极其繁琐了。

从技术角度来看，CLIP 模型本身就很难训练和微调，因此如果尝试同时处理三个模型，可能会面临一场艰难的苦斗。

而现在，我们或许根本不需要微调文本编码器了！

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

第一个原因是，VAE 相比旧模型，捕获了更多的细节。

第二个原因则是，无论我们使用哪种变体，SD3 都经过了适当且鲁棒的 caption 训练，以捕获大多数人认为重要的所有细节。

在 SD3 中，可以让新的架构和 VAE 为我们捕获这些细节，这样我们就可以更好地利用多个 LoRA 模型，实现更鲁棒的生成。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

加速新的 AI 研究

目前，生成式 AI 社区和 LLM 社区之间还缺乏一定的协作。

在这位网友看来，随着 MMDiT 架构更好地与 LLM 社区对齐，会有更多的开发者进入生成式 AI 社区，带来大量丰富的研究和要领。

这将造成的影响，或许是十分重大的。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

此前，LLM 社区就创建了很多应用于生成式 AI 的伟大要领（比如 LoRA 就是从文本建模中派生出来的），然而，由于架构之间缺乏互操作性操作性（当前 SD 使用的是 UNet，SD3 使用的是 Transformer 块），会让许多人望而却步。

如果两个畛域的开发者和研究者开始合作，扩展许多跨畛域的多模态功能，比如文本、图象、音频、视频等，比如会创造出许多独属于开源社区的非常棒的体验。

旧要领更加完善

自从 Stable Diffusion 诞生以来，我们可以在眨眼间生成图象、视频、音频，甚至 3D 模型。

如今在谷歌 Scholar 上，关于 Stable Diffusion 的论文已经有 7500 多篇了。

微调要领、ControlNet、适配器、分段要领等理论，在 SD 上应该会比从前的架构表现得更好。

而且因为架构简单，模型会变得更易访问和使用。

事实上，由于 SD3 的强大图象-文本对齐和 VAE，有些要领可能我们再也不需要了。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

比如在音频扩散、视频扩散和 3D 扩散模型畛域，就可以在新架构上用这些要领训练，进一步提高模型的质量和鲁棒性。

显然，ControlNets 和适配器会变得更好，因为 SD3 实际上是使用多模态架构构建的。

这也就意味着，SD3 在不同模态之间，会有更好的关系理解。

如今我们在构建新要领时，就可以在同一空间内利用这些模态，再结合上更好的文本理解和强大的 VAE，SD3 的前途简直不可限量！

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

CEO「跑路」，开源成谜

赶在 2 月份的时候，Stable Diffusion 迭代到了第 3 个版本。

然而仅一个月的时间，背后核心团队却被曝出集体离职。

更让人意想不到的是，身为 CEO 的 Emad 也紧跟辞职，退出了董事会。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

显然，SD3 随后的开源，也变得迷雾重重。

当时，外界的猜测是，Stability AI 的动荡是 Emad 一手酿成的。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

彭博对 20 位现任前任员工、投资者等采访了解到，Emad 在治理公司方面缺乏经验，组织结构混乱。

更有甚者，公司还习惯性地拖欠工资和税款。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

Emad 近日又成立了一家初创公司 Schelling AI，专注去中心化 AI 系统

其实，在 23 年底，公司内部不稳定的现象已经出现了苗头。

作为联创之一的 Cyrus Hodes 便起诉 Emad 是个「骗子」。

他指控，在公司进行重大融资几个月前，Emad 曾诱骗自己以 100 美元价格出售 15% 股份。

其实，Stability AI 创立之后，便以模型「开源」深受社区关注和好评。

它先后发布了多款模型「全家桶」，包括语言模型 Stable LM、视频模型 Stable Video Diffusiion、音频模型 Stable Audio。

而比起具有里程碑意义的 Stable Diffusion，一代和二代模型系列在开源社区有 300-400 万下载量。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

在开源背后，需要的是 Stability AI 不断开启「烧钱」模式。

但显然，这种入不敷出的方式，根本无法支撑这家公司持续性发展。

前段时间，Information 爆料称，Stability AI 第一季度的营收不足 500 万美元。而且，公司亏损超过了 3000 万美元，还对外拖欠了近 1 亿美元的巨额账单。

更有传闻称，Stability AI 正寻求卖身。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

而在 SD3 发布之后，官方宣布称在对齐之后正式开源，结果等了 3 个多月，依然只是 API 的开放。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

有 Reddit 网友在线发起了提问，为 Stability AI 寻求赚钱出路，以保证 SD3 能够顺利放出。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

20 亿参数版本先上线

好在，ComputeX 大会上，终于等到了 SD3 的官宣开源。

一些网友纷纷收到了 Stability AI 邮件，即将开源的 SD3 Medium 是一个 20 亿参数的模型。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

不过，有人对此质疑道，「Stability AI 愚弄了所有的人，他们开源的是一个名为『SD3 Medium』的模型，其实内部还有 Large 和 X-Large 版本还未发布，这才是人们期待的真正的 SD3」。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

关于更大版本的开源，Stability AI 自家员工表示，40 亿、80 亿参数的版本未来都将会陆续上线。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

Stable Diffusion 3 技术回顾

SD3 的诞生已经在图象质量、多个对象、拼写能力方面，都得到了显著提升，让 AI 生图再创新里程碑。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

发布当天，前 CEO Emad 承诺道，SD3 未来将会开源，目前还在测试阶段。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

甚至，它还涌现出了对物理世界的理解。

紧接着 3 月，Stability AI 公布了新模型最详实的技术报告。

论文中，首次介绍了 Stable Diffusion 3 背后核心技术 —— 改进版的 Diffusion 模型和一个基于 DiT 的文生图全新架构！

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

论文地址：https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/ Stable+Diffusion+3+Paper.pdf

与之前的版本对比，SD3 明显在图象质量生成上，实现了很大的改进，不仅支持多主题提示。

最重要的是，文字拼写的效果也变好了。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

这一切竟是因为，其背后框架的改进和创新。

它用上了与 Sora 同样的 DiT 架构，灵感来源于纽约大学助理教授谢赛宁的研究。

而在以前的 Stable Diffusion 版本中，并未采用 Transformer 技术。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

在文生图的任务中，SD3 需要同时考虑文本 + 图象两种模态。

因此，研究者提出了一种全新的架构，称为 ——MMDiT（多模态 Diffusion Transformer），专为处理这种多模态的能力。

具体而言，模型采用了三种不同的文本嵌入模型 —— 两个 CLIP 模型和一个 T5 ，来处理文本信息。

与此同时，还采用了一个自编码模型来编码图象 token。

因为文本和图象嵌入在概念上有很大不同，下图右中可以看出，研究者对两种模态使用了两种不同的权重。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

基于这种独特的架构，使得图象和文本信息之间可以相互流动和交互，从而在生成的结果中提高对内容的整体理解和视觉表现。

而且，这种架构未来还可以轻松扩展到其他包括视频在内的多种模态。

实验评估中，SD3 在人类偏好评估中超越了 DALL-E 3 和 Midjourney v6，成为该畛域的 SOTA 模型。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

而且，SD3 是一个模型系列，提供了 8 亿到 80 亿参数版本，意味着可以在终端设备可跑，大大降低了 AI 应用的门槛。

网友们对此激动不已，纷纷催更他们快速上线。

SD3 开源倒计时开启，接下来坐等上手了。

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

参考资料：

https://x.com/op7418/status/1800455685068771643

https://x.com/StabilityAI/status/1797462536117444794

SD3 Release on June 12
byu/ithkuil inStableDiffusion

Comment
byu/ExponentialCookie from discussion
inStableDiffusion

本文来自微信公众号：新智元（ID：AI_era）

{{userData.name}}已认证

Stable Diffusion 3 开源倒计时，2B 单机可跑碾压闭源 Midjourney

欠债 1 亿的独角兽，仍坚持做开源英雄？

将对开源社区影响重大

VAE 是无名英雄

我们不需要训练 / 微调文本编码器了

加速新的 AI 研究

旧要领更加完善

CEO「跑路」，开源成谜

20 亿参数版本先上线

Stable Diffusion 3 技术回顾

GPT-4o 更容易逃狱？北航 & 南洋理工上万次测试给出详细分析

「思谋科技」获香港投资管理集团首笔投资，香港政府AI策略正式拉开

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！