DALL-E发明者受访：我对其两年来产生的影响感到惊讶

在 DALL-E 2、Stable Diffusion 和 Midjourney 出现之前，该领域仅有一篇论文，即《零样本文本到图象生成》（Zero-Shot Text-to-Image Generation）。

OpenAI 研讨员、DALL-E 发明者和 DALL-E 2 联合开发者 Aditya Ramesh（图源自 OpenAI）。

2021 年 1 月 5 日，也就是两年前，随着这篇论文和网站演示的宣布，OpenAI 推出了 DALL-E—— 可以「根据文本说明为各种用自然言语表达的概念创建图象」的神经网络。而据报道，OpenAI 近日正在就「估值为 290 亿美元的收购要约」进行谈判。

DALL-E发明者受访：我对其两年来产生的影响感到惊讶

图源自 DALL-E。

经过训练，Transformer 言语模型 GPT-3 的 120 亿参数版本可以运用文本图象对数据集从文本描绘中生成图象。VentureBeat 记者 Khari Johnson 在描绘时说，其「旨在唤起艺术家 Salvador Dali 和机器人 WALL-E」，并附上了 DALL-E 生成的「穿着芭蕾舞裙的小白萝卜遛狗」的插图。

OpenAI 研讨员、DALL-E 的发明者和 DALL-E 2 的联合开发者 Aditya Ramesh 表示，自那以后，整个领域便取得了飞速的发展。鉴于过去一年生成式 AI 领域取得了飞速的发展，这算是一种很保守的说辞。随后便是聚集模型的迅速崛起，其出现改变了去年 4 月宣布的 DALL-E 2，以及它的开源对手：Diffusion 和 Midjourney 原有的格局。

Ramesh 告诉 VentureBeat：「我们第一次尝试这个研讨方向，想看看能有什么作为，现在感觉恍如昨日。我知道这项技巧将会对消费者产生影响，也会帮助到并对许多不同的应用程序，但我仍然对其发展速度之快感到惊讶。」

如今，生成式模型正在逐渐发展到「图象生成和多种模态的高光时刻」。他说：「我很高兴可以为所有这些即将出现的应用做点什么。」

与 CLIP 合作开发的原创研讨

CLIP 是与 DALL-E 1 研讨共同开发和公布的，它是一个基于零样本学习的独立模型，实际上算是 DALL-E 的秘密武器。CLIP 从互联网上获取了 4 亿对带有文字说明的图象进行训练，可以运用自然言语进行分类基准测试并对 DALL-E 结果进行排名。

当然，很多早期迹象表明，当前即将迎来文字到图象的进步。英属哥伦比亚大学（University of British Columbia）的计算机科学副教授 Jeff Clune 说道：「多年来的研讨显示，这种未来近在咫尺。」2016 年，他的团队制作出了他所说的第一批与真实图象难以分辨的合成图象。

他说：「我的意思是，几年后，人们可以描绘任何想要的图象，然后由 AI 来生成它，比如特朗普面带假笑地接受普京的贿赂。」

Air Street Capital 的合伙人 Nathan Benaich 认为，生成式 AI 自始至终都是 AI 的核心部分。他在接受 VentureBeat 采访时表示：「值得一提的是，2014 年生成式对抗网络（GANs）的开发和 DeepMind 2016 年的 WaveNet 等研讨已经开始展示 AI 模型如何分别从头生成新的图象和音频。」

尽管如此，最后的 DALL-E 论文「在当时给人留下了深刻的印象」，未来学家、作家和 AI 研讨员 Matt White 弥补道。他说：「虽然这不是文本到图象合成领域的首项工作，但 OpenAI 不仅仅向 AI 研讨领域推广他们工作的方法，更是将推广范围扩大到公众层面，这自然也是其颇受关注的原因所在。」

尽可能地推动 DALL-E 研讨

Ramesh 说，他的初心始终是尽可能地推动这项研讨。

他说：「我们觉得文本到图象的生成很有意思，作为人类，我们可以通过一句话来描绘我们在现实生活中可能遇到的任何情况，也可以是不可能发生的幻想场景，或者是疯狂的幻想。所以我们想看看我们训练的模型是否能得当地从文本中生成图象，并且和人类一样做出推断。」

Ramesh 还弥补道，对原始 DALL-E 的主要研讨影响之一是 VQ-VAE，这是一种由 DeepMind 研讨人员 Aaron van den Oord 首创的技巧：像言语模型所训练的 token 一样，将图象也分解为 token。

他解释说：「所以我们可以采用像 GPT 这样的 transformer，训练它的目的是为了预测下一个单词，并用这些额外的图象 token 来增强它的言语 token。这让我们可以应用同样的技巧来生成图象。」

他说，DALL-E 会带给人们惊喜，因为「在言语模型中看到泛化的例子是一回事，但当在图象生成中看到它时，它就会更加直观且具有更深的影响力。」

DALL-E 2 向聚集模型的转变

但最后 DALL-E 研讨发表时，Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已经在研讨在 GLIDE（一种新的 OpenAI 聚集模型）的修改版本中运用聚集模型。

这导致 DALL-E 2 的架构与第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解释的那样，「DALL-E 1 运用离散变分自编码器 (dVAE)、下一个 token 预测和 CLIP 模型重新排序，而 DALL-E 2 直接运用 CLIP 嵌入，并通过类似 GLIDE 的聚集来解码图象。」

Ramesh 说：「将聚集模型和 DALL-E 结合起来，看似是一件自然而然的事，因为聚集模型有很多优点，其中最明显的特点是用聚集模型可以利落而又巧妙地修复图象。」

他解释道，在 DALL-E 2 中加入了在开发 GLIDE 时运用的一种特殊技巧 —— 无分类器指导 —— 这大大改进了字幕的匹配度以及真实感。

「当 Alex 第一次尝试时，没有人想到结果会有这么大的改善。我最后只期望 DALL-E 2 能成为 DALL-E 的更新版本，但让我惊讶的是，它已经开始让用户受益了。」

2022 年 4 月 6 日，当 AI 社群和普通用户第一次看到 DALL-E 2 的图象输出时，他们中的大部分都惊叹于图象质量的差异。

DALL-E发明者受访：我对其两年来产生的影响感到惊讶

图源自 DALL-E 2。

「竞争激烈，喜忧参半」

Hugging Face 的首席伦理科学家 Margaret Mitchell 在电子邮件告诉 VentureBeat，2021 年 1 月宣布的 DALL-E 是第一波文本到图象研讨的浪潮，这些研讨建立在言语和图象处理的基本进展之上，包括变分自动编码器和 autoregressive transformers。DALL-E 2 宣布时，「聚集是我们行内人意料之外的突破，它切实地提升了游戏质量，」她说。

她弥补说，自从最后的 DALL-E 研讨论文发表以来，过去两年一直是「竞争激烈，喜忧参半」。

「对如何建立言语和图象模型的关注是以如何最好地获取模型的数据为代价的，」她还指出，在现代文本到图象的进展中，个人权利和同意「几乎被抛弃了」。目前的系统「基本上是在窃取艺术家的概念，而没有为艺术家提供任何追索权，」她如此总结道。

DALL-E 没有公开源代码，这导致其他系统开发了开源的文本转图象选项，这在 2022 年夏天前引起了轰动。

最后的 DALL-E「很有意思，但无法运用」，Stability AI 的创始人 Emad Mostaque 说，他在 8 月宣布了开源文本到图象生成器 Stable Diffusion 的第一个迭代，并说「只有我的团队训练的模型可以称作开源」。Mostaque 弥补说:「我们从 2021 年夏天开始积极资助和支持它。」

展望未来，White 认为，即使不久将要迎来新一代，DALL-E 的未来依旧任重而道远。

「DALL-E 2 在稳定性、质量和道德层面都存在问题，」，他指出，这些问题是相互交织且互相影响的，像「一只棕色的狗穿着红衬衫」这样的 prompt 可能会产生属性颠倒的结果（即红狗穿棕色衬衫，红狗穿红色衬衫或完全不同的颜色）。此外，他弥补道，DALL-E 2 在面部和身体构造、图象文本生成的一致性方面仍然存在困难，「特别是当遇到较长的单词时。」

DALL-E 和生成式 AI 的未来

Ramesh 希望更多的人了解到 DALL-E 2 的技巧工作原理，这样可以消除很多误解。

他说：「在大众眼里。这个模型的工作方式是：它在某处有个图象数据库，它生成图象的方式是将这些图象片段剪切粘贴在一起，从而创造出新的东西。但实际上，它的工作方式更接近于人类，当模型接受图象训练时，它会学习所有这些概念的抽象表征。」

他还解释道：「在我们从头开始生成图象时，我们不再运用训练数据。聚集模型从他们试图生成物的模糊近似开始，经过多重步骤，逐步添加细节，就像艺术家总是从一个粗略的草图开始发挥，随着时间的推移再慢慢充实他的作品。」

他说，助艺术家创作一臂之力也是 DALL-E 自始至终的目标。

「过去，我们热切地希望这些模型能成为艺术家的得力助手 —— 成为可以让许多日常任务变得更简单、更有效率的得力工具，就像 Codex 是程序员的副驾驶一样。据我们所知，一些艺术家认为在创建想法原型时，DALL-E 非常有用，因为他们通常会花几个小时甚至几天的时间来探索某个概念，随后才决定采用它，而 DALL-E 可以将这个过程缩短至几个小时甚至是几分钟。」

Ramesh 说，他希望越来越多的人可以在学习和探索过程中逐渐学会应用 DALL-E 和其他生成式 AI 工具。

「通过（OpenAI 的）ChatGPT，我认为我们已经极大地扩展了这些 AI 工具的功能，并让很多人接触到它。希望随着时间的推移，那些想运用我们的技巧做事的人可以很毫不费力地通过我们的网站获取它，并找到方法来运用其构建出他们心中所想。」

原文链接：https://venturebeat.com/ai/two-years-after-dall-e-debut-its-inventor-is-surprised-by-impact/

{{userData.name}}已认证

DALL-E发明者受访：我对其两年来产生的影响感到惊讶

与 CLIP 合作开发的原创研讨

尽可能地推动 DALL-E 研讨

DALL-E 2 向聚集模型的转变

「竞争激烈，喜忧参半」

DALL-E 和生成式 AI 的未来

google大脑深度进修调参（炼丹）指南出炉，Hinton点赞，一天收获1500星

ChatGPT又添劲敌？OpenAI核心员工创业，新模型获一片叫好

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩