Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

大家好,这里是和你们一起探索 AI 绘画的花生~ 4 月份的时候给大家介绍了 Stability AI 新推出新模型 Stable Diffusion XL,它的参数是 SD v2.1 的 2.5 倍,整体图像生成质量也比 v2.1 要好很多。不到半个月时间,Stability AI 又推出了一个新的文本到图像模型 DeepFloyd IF,今天我们就继续看看这个新模型的功能。DeepFloyd IF DeepFloyd 官网: DeepFloyd IF 模型试玩: DeepFloyd 是 Stability

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

大家好,这里是和你们一起探索 AI 绘画的花生~

4 月份的时候给大家介绍了 Stability AI 新推出新模型 Stable Diffusion XL,它的参数是 SD v2.1 的 2.5 倍,整体图像生成质量也比 v2.1 要好很多。不到半个月时间,Stability AI 又推出了一个新的文本到图像模型 DeepFloyd IF,今天我们就继续看看这个新模型的功能。

DeepFloyd IF

DeepFloyd 官网: https://deepfloyd.ai/

DeepFloyd IF 模型试玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd 是 Stability AI 旗下的多模态 AI 研究实验室,这次的 IF 模型就是由 DeepFloyd 研发的。据官方介绍,DeepFloyd IF 是最新最先进的开源文本-图像模型,拥有强大的语言理解能力,生成的图像具有高度真实感。从其官网展示了图像来看,DeepFloyd IF 生成的图像质量非常不错,也能处理多种不同的风格效果。

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

DeepFloyd IF 生成的图像,图片内容来源:DeepFloyd 官网

上面的这些图像也体现了 DeepFloyd IF 另外的 2 项优势 —— 能在图像中生成连贯清晰的文本,以及理解不同对象的属性和空间关系。比如它可以正确地将文字呈现在路牌、纸片、包装外壳等规定的媒介内;能理解文本之间的连续关系,将不同的字母或数字按顺序呈现在不同的物体上;以及分清圆球是金属的,三角形是毛茸茸的,不会将不同物体的属性弄混。

我用同一组提示词在 Stable Diffusion XL、DeepFloyd IF 和 Midjourney 中分别进行了测试,结果见下图。可以看到 SD XL 虽然显示了文字,但是文字内容并不准确,也没有有突出文字的主体位置,显然是模型对文本的理解能力有限;Midjourney 生成图像质量很高,但是文字部分是错的;DeepFloyd IF 对文字内容和涂鸦风格把握都很准确,整体效果最好。

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

推特上也有很多网友利用 DeepFloyd IF 成功生成各种具有清晰文字内容的图像,说明 IF 模型的这项功能的非常稳定。

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

内容来源: https://twitter.com/deepfloydai

DeepFloyd 还在官网上展示了 IF 模型与其他的模型的效果对比,包括 OpenAI 的 DALLE·2、Google 的 Imagen 和 Parti,以及 Stability AI 自己的 Stable Diffusion v2.1。从对比图可以看出 DeepFloyd IF 的图像生成质量并不逊于其他模型,在语言理解方面方面甚至表现更好,比如在和 DALLE·2 的对比图中,IF 模型可以更好地理解“a handpalm 一只手掌”这个概念。

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

DeepFloyd IF 与其他模型的对比

与 Stable Diffusion、DALLE·2 等模型不同的是,DeepFloyd IF 是一个由冻结文本编码器和三个级联像素扩散模块组成的。三个扩散模块分别为一个基于文本提示生成 64x64 像素图像的基本模型,和两个超分辨率模型。

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

也就是说使用一般的绘画工具 ,我们直接就能生成一张 512*512px 或者 1024*1024px 的分辨率图像,而 DeepFloyd IF 则是先生成一张 64*64px 的基础图像,然后再通过两个超分辨率模型对其进行分辨率提升。这一点在 DeepFloyd IF 试玩 Demo 中也体现了出来:输入提示词后,会先得到一个模糊的 64*64px 的图像,然后选择“Upscale”进行放大,才会得到一个 1024x1024 px 的信息图像。这个特点让 IF 模型在生成基础图像时速度比一般模型快很多, 图像生成效率更高。

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

除了根据文本提示生成图像,DeepFloyd IF 还有一个根据图像生成类似图像的功能,整个过程也非常有意思。DeepFloyd IF 会先将原图缩减至 64 px,通过正向扩散添加一定程度的噪声,然后在逆向扩散过程中使用新文本提示对图像进行去噪,从而实现图像到图像的转换。这样以保留原图的基础构图、色彩等信息,然后再根据文本提示,生成不同样式、风格和细节的图像。

DeepFloyd IF 还有 Super Resolution 和 Inpainting 功能。Super Resolution 即提升画面的分辨率,前面提到过 IF 模型本身就自带 2 个超分辨率模型,而对于并非由 IF 生成的图像,也可以用 IF 模型进行放大。Inpainting 则是通过涂抹修改图像局部内容,且修改后的内容能与原画面的风格保持一致。

Stability AI 又出新模型 DeepFloyd !AI设计海报指日可待了

DeepFloyd IF 目前没有正式的应用,只在 Huggingface 上提供了一个试玩 Demo,感兴趣的朋友可以戳下面的链接试一试。DeepFloyd IF 模型及生成的内容目前不可商用,仅供研究使用。团队目前在开放收集关于 IF 模型的反馈意见,之后会发布一个完全免费的商业兼容版本。

DeepFloyd IF 模型试玩: https://huggingface.co/spaces/DeepFloyd/IF

DeepFloyd IF 模型的出现意味着 AI 绘画的可控性得到了进一步的提升,特别是在能生成连贯准确的文字内容这方面,让 AI 绘画工具在未来可以在设计领域有更广泛得的应用,比如生成具有准确文字的图片素材、具有特殊效果的字体设计,甚至是进行准确地排版。本期文章封面的配图就是用 DeepFloyd IF 生成的,你觉得 DeepFloyd IF 还会哪些其他的发挥它的优势呢?欢迎在评论区分享你的看法~

相关资讯

ChatGPT来了!做好这3点,设计师仍可安身立命

Hey 今天你过得好吗~ ChatGPT 大火的今天,许多人对自身境遇都觉岌岌可危,那作为互联网行业设计师的我们,未来会何去何从?我浅浅地畅想了一下~ 更多ChatGPT的干货:一、ChatGPT 的优势 简单提炼就 2 条: 1. 无需学习“领域语言” 什么是“领域语言”? 举个例子,比如我们现在画一个界面,我们得在绘图软件里输入参数:快捷键 A,先建个画板,输入画板尺寸的数字 添加各种组件 调整各个组件的间距、颜色 ……以上的这些操作,都是机器的“领域语言”,说白了,就是我们人,得先学习机器能听得懂的语言,才能

AI绘画神器Midjourney进阶手册:如何让生成的图片更加可控?

现在我几乎每天都在用 AI 绘画和 chatGPT,它们已经成为我工作的好帮手了。我从去年就对这个领域持续关注,确实是发展很快,尤其是最近几个星期,感觉每天都在搞大新闻。科技发展并非线性的,而是爆炸式出现在我们的眼前。 通过不断研究,我把很多有价值的内容整理成了教程,不小心就写成一个系列了,相信这个系列还会有更多更新,放心,都是免费的。 那么接上一篇,今天继续和大家分享一些 AI 绘画的高级用法教程。这篇教程主要解决的问题是:如何让生成的图片更加可控。毕竟我们的工作需求是明确的,如果每次生成的内容太过随机,对工作来