大家好,这里是和你们一起探索 AI 图画的花生~
9 月 21 号 OpenAI 在官网上线了 DALL·E 3 的引见页面,它是一款新的文生图模型,可以根据文本提醒词生成各种风格的高质量图象。DALL·E 3 的上一代是去年 4 月份推出的 DALL·E 2,出现时一样因为强大的图象生成能力引起过广泛关注。时隔一年半,新推的 DALL·E 3 有哪些方面的提高?与 Midjourney、Stable Diffusion 等 AI 图画工具相比又有哪些不同?今天就带大家一起了解。
了解 DALL·E 2 模型:
一、DALL·E 3 的特点
DALL·E 3 引见页面: https://openai.com/dall-e-3
据官方引见,DALL·E 3 可以生成完全符合提醒词的图象,并能明白更多的细微差别和细节,让用户能轻松地根据自己的设法生成正确的图象。下面是官方给出的对比图,在同一组提醒词下,DALL·E 3 在图象质量和细节浮现上的表现比 DALL·E 2 更好。
我用 DALL·E 3 官网图象的提醒词在 midjourney v5.2 和 Stable Diffusion XL 1.0 中生成了几组图象,通过对比可以看出 DALL·E 3 能很好地明白“治疗师,一个勺子”“闭着眼睛高兴地咬了几口”这样的自然语言,并正确浮现出对应的形象细节,还能正确地生成“I just feel so empty inside”这样的文本实质,而 Midjourney 和 Stable Diffusion 还无法达到一样的效果。
在处理更长更复杂的提醒词时,DALL·E 3 可以在画面中完整浮现提醒词中的各类元素和特征,比如海鸥、绿光、旋转的云、带有图案的地毯,而 Midjourney 和 Stable Diffusion 则会遗漏掉部分细节特征。
除了强大的图象生成能力,DALL·E 3 另一个备受瞩目的点是它可以配合 ChatGPT 应用。
官网上有一段 DALL·E 3 in ChatGPT 的示范视频,视频中当用户提出一段设法时,ChatGPT 会自动生成非常详细的提醒词,并调用 DALL·E 3 生成的正确图象;用户还可以直接发送文字指示,让 ChatGPT 对图象进行修改。整个过程中,ChatGPT 能提供无限的灵感和创意,DALL·E 3 可以快速将用户的设法具象化浮现,流畅的配合让一个故事的诞生变得轻松自然,这种新的图象生成体验更是让人眼前一亮。
在 DALL·E 3 in ChatGPT 的示范视频,来源 OpenAI 官网
官网上显示 DALL·E 3 生成的图象可以直接商用,同时 OpenAI 在相关版权政策上也有新的变化,包括 DALL·E 3 会拒绝生成在世艺术家风格的图象,艺术创作者可以选择退出 OpenAI 将来图象生成模型的训练。此外 DALL·E 3 还提高了其图象生成的安全性,比如拒绝生成公众人物图象,限制暴力、成人或仇恨实质的生成,以及弱化生成图象中潜在的偏见性。
二、DALL·E 3 与应用
DALL·E 3 将在 10 月初上线,通过 API 向 ChatGPT Plus 用户和企业客户提供。虽然 OpenAI 自己有一个叫做 DALL·E 的 AI 图画网站(目前应用的是 DALL·E 2 的模型,可以根据文本生成图象以及进行局部重绘),但 DALL·E 3 好像并不会在里面同步更新。
DALL·E: https://labs.openai.com/ (需要登录 OpenAI 账号后才能应用)
DALL·E 3 的吸引力是毋庸置疑的,但想要用上它可能并不容易。毕竟能否成功注册一个 OpenAI 账号对我们来说可能都是一个大问题,而且之前也出现账号注册成功后又被封禁的情况,从这点来看 Midjourney 和开源的 Stable Diffusion 就友好的多了。
在 DALL·E 3 in ChatGPT 的示范视频中, 虽然展示了文生图、按提醒修改图象等操作,但图象处理性能并没有更多体现。目前 Midjourney 和 Stable Diffusion 的性能都非常完善,可以实现自定义画幅、图生图、高清放大、局部重绘、外绘拓展等操作,这些性能将来在 DALL·E 3 中能否实现,以及如何通过 ChatGPT 实现都还是未知数。
从另一方面来说,DALL·E 3 的出现表明文生图技术又有了新的进步:AI 可以更好地明白自然语言、正确地且完整地浮现画面细节和元素之间的关系,以及生成正确的文本实质,这意味着 Midjourney 和 Stable Diffusion 等 AI 图画工具的图象生成能力在将来可能也会有一样的提高。同时 DALL·E 3 in ChatGPT 也会进一步促进多模态输出模式的发展,将来肯定会有更多 AI 聊天工具也支持生成图象。