Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

大家好，这里是和你们一起探索 AI 图画的花生~ 4 月份的时候给大家介绍了 Stability AI 新推出新模型 Stable Diffusion XL，它的参数是 SD v2.1 的 2.5 倍，整体图象生成质量也比 v2.1 要好很多。不到半个月时间，Stability AI 又推出了一个新的文本到图象模型 DeepFloyd IF，今天我们就继续看看这个新模型的功能。DeepFloyd IF DeepFloyd 官网： DeepFloyd IF 模型试玩： DeepFloyd 是 Stability

大家好，这里是和你们一起探索 AI 图画的花生~

4 月份的时候给大家介绍了 Stability AI 新推出新模型 Stable Diffusion XL，它的参数是 SD v2.1 的 2.5 倍，整体图象生成质量也比 v2.1 要好很多。不到半个月时间，Stability AI 又推出了一个新的文本到图象模型 DeepFloyd IF，今天我们就继续看看这个新模型的功能。

DeepFloyd IF

DeepFloyd 官网： https://deepfloyd.ai/

DeepFloyd IF 模型试玩： https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd 是 Stability AI 旗下的多模态 AI 研究实验室，这次的 IF 模型就是由 DeepFloyd 研发的。据官方介绍，DeepFloyd IF 是最新最先进的开源文本-图象模型，拥有强大的语言明白能力，生成的图象具有高度真实感。从其官网展示了图象来看，DeepFloyd IF 生成的图象质量非常不错，也能处理多种分别的格调效果。

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

DeepFloyd IF 生成的图象，图片实质来源：DeepFloyd 官网

上面的这些图象也体现了 DeepFloyd IF 另外的 2 项优势 —— 能在图象中生成连贯清晰的文本，以及明白分别对象的属性和空间关系。比如它可以正确地将笔墨呈现在路牌、纸片、包装外壳等规定的媒介内；能明白文本之间的连续关系，将分别的字母或数字按顺序呈现在分别的物体上；以及分清圆球是金属的，三角形是毛茸茸的，不会将分别物体的属性弄混。

我用同一组提醒词在 Stable Diffusion XL、DeepFloyd IF 和 Midjourney 中分别进行了测试，结果见下图。可以看到 SD XL 虽然显示了笔墨，但是笔墨实质并不正确，也没有有突出笔墨的主体位置，显然是模型对文本的明白能力有限；Midjourney 生成图象质量很高，但是笔墨部分是错的；DeepFloyd IF 对笔墨实质和涂鸦格调把握都很正确，整体效果最好。

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

推特上也有很多网友利用 DeepFloyd IF 成功生成各种具有清晰笔墨实质的图象，说明 IF 模型的这项功能的非常稳定。

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

实质来源： https://twitter.com/deepfloydai

DeepFloyd 还在官网上展示了 IF 模型与其他的模型的效果比较，包括 OpenAI 的 DALLE·2、Google 的 Imagen 和 Parti，以及 Stability AI 自己的 Stable Diffusion v2.1。从比较图可以看出 DeepFloyd IF 的图象生成质量并不逊于其他模型，在语言明白方面方面甚至表现更好，比如在和 DALLE·2 的比较图中，IF 模型可以更好地明白“a handpalm 一只手掌”这个概念。

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

DeepFloyd IF 与其他模型的比较

与 Stable Diffusion、DALLE·2 等模型分别的是，DeepFloyd IF 是一个由冻结文本编码器和三个级联像素集中模块组成的。三个集中模块分别为一个基于文本提醒生成 64×64 像素图象的基本模型，和两个超分辨率模型。

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

也就是说使用一般的图画工具，我们直接就能生成一张 512*512px 或者 1024*1024px 的分辨率图象，而 DeepFloyd IF 则是先生成一张 64*64px 的基础图象，然后再通过两个超分辨率模型对其进行分辨率提升。这一点在 DeepFloyd IF 试玩 Demo 中也体现了出来：输入提醒词后，会先得到一个模糊的 64*64px 的图象，然后选择“Upscale”进行放大，才会得到一个 1024×1024 px 的信息图象。这个特点让 IF 模型在生成基础图象时速度比一般模型快很多，图象生成效率更高。

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

除了根据文本提醒生成图象，DeepFloyd IF 还有一个根据图象生成类似图象的功能，整个过程也非常有意思。DeepFloyd IF 会先将原图缩减至 64 px，通过正向集中添加一定程度的噪声，然后在逆向集中过程中使用新文本提醒对图象进行去噪，从而实现图象到图象的转换。这样以保留原图的基础构图、色彩等信息，然后再根据文本提醒，生成分别样式、格调和细节的图象。

DeepFloyd IF 还有 Super Resolution 和 Inpainting 功能。Super Resolution 即提升画面的分辨率，前面提到过 IF 模型本身就自带 2 个超分辨率模型，而对于并非由 IF 生成的图象，也可以用 IF 模型进行放大。Inpainting 则是通过涂抹修改图象局部实质，且修改后的实质能与原画面的格调保持一致。

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

DeepFloyd IF 目前没有正式的应用，只在 Huggingface 上提供了一个试玩 Demo，感兴趣的朋友可以戳下面的链接试一试。DeepFloyd IF 模型及生成的实质目前不可商用，仅供研究使用。团队目前在开放收集关于 IF 模型的反馈意见，之后会发布一个完全免费的商业兼容版本。

DeepFloyd IF 模型试玩： https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd IF 模型的出现意味着 AI 图画的可控性得到了进一步的提升，特别是在能生成连贯正确的笔墨实质这方面，让 AI 图画工具在未来可以在设计领域有更广泛得的应用，比如生成具有正确笔墨的图片素材、具有特殊效果的字体设计，甚至是进行正确地排版。本期文章封面的配图就是用 DeepFloyd IF 生成的，你觉得 DeepFloyd IF 还会哪些其他的发挥它的优势呢？欢迎在评论区分享你的看法~

：

{{userData.name}}已认证

Stability AI 又出新模型 DeepFloyd ！AI设计海报指日可待了

DeepFloyd IF

第一波！2023年5月精选实用计划对象合集

Midjourney用户手册中文版！详解模型、下令、参数与高级用法

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！