OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

打开 ChatGPT 就能用 DALL・E 3 生成图片了,OpenAI 还罕见地发布了一些技术细节。终于,「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后,一位网友感叹说。DALL・E 3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL・E 2 最大的区别在于,它可以利用 ChatGPT 生成提醒(prompt),然后让模型根据该提醒生成图象。对于不擅长编写提醒的普通人来说,这一改善大大提高了 DALL・E 3 的运用效率

打开 ChatGPT 就能用 DALL・E 3 生成图片了,OpenAI 还罕见地发布了一些技术细节。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

终于,「OpenAI 又 Open 了」。在看到 OpenAI 刚刚发布的 DALL・E 3 相关论文后,一位网友感叹说。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

DALL・E 3 是 OpenAI 在 2023 年 9 月份发布的一个文生图模型。与上一代模型 DALL・E 2 最大的区别在于,它可以利用 ChatGPT 生成提醒(prompt),然后让模型根据该提醒生成图象。对于不擅长编写提醒的普通人来说,这一改善大大提高了 DALL・E 3 的运用效率。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

此外,与 DALL・E 2 相比,DALL・E 3 生成的图质量也更高。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

DALL・E 2 与 DALL・E 3 的生成效果对比。对于同样的 prompt「一幅描绘篮球运动员扣篮的油画,并伴以爆炸的星云」,左图 DALL・E 2 在细节、清晰度、明亮度等方面显然逊于右图 DALL・E 3。

即使与当前最流行的文生图应用 Midjourney 相比,DALL・E 3 也能打个平手甚至超越 Midjourney。而且与 Midjourney 相比,DALL・E 3 不需要用户自己掌握复杂的 Prompt 编写知识,运用起来门槛更低。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

DALL・E 3 vs. Midjourney 文生图效果。prompt:这幅插画描绘了一颗由半透明玻璃制成的人心,矗立在惊涛骇浪中的基座上。一缕阳光穿透云层,照亮了心脏,揭示了其中的小宇宙。地平线上镌刻着一行醒目的大字 「Find the universe within you」。

这一模型的发布引发了不小的轰动,也再次巩固了 OpenAI 技术领头羊的形象。一时间,所有人都很好奇,这么炸裂的效果是怎么做到的?不过,令人失望的是,当时 OpenAI 并没有透露技术细节,就像之前发布 GPT-4 时一样。

不过,一个月后,OpenAI 还是给了大家一些惊喜。在一份篇幅达 22 页的论文中,他们阐述了针对 DALL・E 3 所做的改善。论文要点包括:

模型能力的提升主要来自于详尽的图象文本形貌(image captioning);

他们训练了一个图象文本形貌模型来生成简短而详尽的文本;

他们运用了 T5 文本编码器;

他们运用了 GPT-4 来完善用户写出的简短提醒;

他们训练了一个 U-net 解码器,并将其蒸馏成 2 个去噪步骤;

文本渲染仍然不可靠,他们认为该模型很难将单词 token 映射为图象中的字母

除了论文之外,OpenAI 还公布了一个重要消息:DALL・E 3 已经正式上线 ChatGPT,Plus 用户和 Enterprise 用户都可以运用。以下是机器之心的试用效果:

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

如果对结果不满意,你还可以直接让它在原图的基础上修改:

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

不过,随着对话长度的增加,生成结果变得有些不稳定:

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

在文字生成方面,DALL・E 3 已经提升了不少:

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

不过,在面对中文时,它的表现仍然较差:  

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

为了保证 DALL・E 3 输出内容的安全性和合规性,OpenAI 也做了一些努力,确保模型输出的内容是被检查过的,而且不侵犯在世艺术家的版权。

当然,要了解 DALL・E 3 背后的技术,还是要详细阅读论文。以下是论文介绍:

论文概览

OpenAI 发布的 DALL・E 3 相关论文总共有 19 页,作者共有 15 位,半数为华人,分别来自 OpenAI 和微软。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

论文地址:https://cdn.openai.com/papers/dall-e-3.pdf

论文提出了一种解决提醒跟随(prompt following)问题的新方法:文本形貌改善(caption improvement)。本文假设现有的文本 – 图象模型面临的一个基本问题是:训练数据集中的文本 – 图象对的质量较差,这一问题在其他研究中也已经被指出。本文建议通过为数据集中的图象生成改善的文本形貌来解决这个问题。 

为了达到这一目标,该研究首先学习了一个具有稳健性的图象文本生成器,它可以生成详细、准确的图象形貌。然后,将此文本生成器应用到数据集以生成更详细的文本。最终在改善的数据集上训练文本 – 图象模型。

其实,用分解数据从事训练并不是一个全新的概念。本文的贡献主要在于研究者建立了一个新颖的具有形貌性的图象文本系统,并对用分解文本训练生成的模型从事了评价。该研究还为一系列评价建立了一个可重复的基准性能概要文件,这些评价用于测量提醒执行的情况。

在接下来的章节中,第 2 节对训练图象文本生成器的策略从事了全面概述,第 3 节对在原始文本和生成文本上训练的文本到图象模型从事了评价,第 4 节对 DALL-E 3 从事了评价,第 5 节讨论了限制和风险。

下面我们看看每个章节的具体内容。

数据集重形貌(Recaptioning)

OpenAI 的文本到图象模型是在大量 (t, i) 对组成的数据集上从事训练的,其中 i 是图象,t 是形貌图象的文本。在大规模数据集中,t 通常源于人类作者,他们主要对图象中的东西从事简单形貌,而忽略图象中的背景细节或常识关系。

更糟糕的是,在互联网上找到的形貌往往根本不正确或者形貌与图象不怎么相关的细节。OpenAI 认为所有的缺陷都可以运用分解形貌来解决。

建立图象形貌生成器

图象形貌生成器与可以预测文本的传统言语模型非常相似。因此,OpenAI 首先提供了言语模型的简单形貌。这里先用分词器(tokenizer)将字符串分解为离散的 token,以这种方式分解之后,语料库的文本部分就表示为了序列 t = [t_1, t_2, . . . , t_n]。然后通过最大化以下似然函数来建立文本言语模型。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

接下来若想将该言语模型转换为形貌生成器,只需要对图象从事调整即可。因此给定一个预训练的 CLIP 图象嵌入函数 F (i),OpenAI 将言语模型目标做了如下增强。

微调形貌生成器

为了改善在图象生成数据集上的形貌效果,OpenAI 希望运用形貌生成器来生成图象形貌,这有助于学习文本到图象模型。

在首次尝试中,他们建立了一个仅能形貌图象主东西的小规模形貌数据集,然后继续在这个数据集上训练自己的形貌生成器。该过程诱导的更新到 θ 使得模型偏向于形貌图象的主东西。OpenAI 将这种微调生成的形貌称为「短分解形貌」。

OpenAI 做了第二次尝试,创建了一个更长的、形貌更丰富的文本数据集,来形貌微调数据集中每个图象的内容。這些形貌包括图象的主东西,以及周围东西、背景、图象中的文本、风格、颜色。

他们在该数据集上对基础文本生成器从事进一步微调,并将该文本生成器生成的文本称为「形貌性分解形貌」。下图 3 展示了真值、短分解和形貌性分解形貌的示例。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

评价重形貌(re-captioned)数据集

OpenAI 利用重形貌数据集,开始评价训练模型对分解文本的影响。他们尤其试图回答以下两个问题:

运用每种类型的分解形貌对性能有什么影响

分解形貌与真值形貌的最佳混杂比率是多少?

分解与真值形貌混杂

像文本到图象扩散模型这样的似然模型都有一个不好的倾向,即对数据集中的分布规律过拟合。当说到在分解形貌上训练时,则需要考虑这个问题。

OpenAI 的形貌生成器模型可能有很多难以检测的模态行为,但如果该模型基于形貌从事训练,则这些行为将变成文本到图象模型的偏差。

解决这一问题的最佳方法是:将「输入」正则化为更接近人类可能运用的风格和格式的文本分布。运用真值形貌时,你可以「自由」获得,这是由于它们实际上是从人类文本分布中提取的。此外,为了在运用分解形貌时将正则化引入到自己的模型训练中,OpenAI 挑选将分解形貌与真值形貌混杂运用。

混杂操作在数据采样时从事,这时 OpenAI 以固定的百分比随机挑选真值或分解形貌。

评价方法

在评价时,OpenAI 在相同的图象数据集上训练了相同的 T5-conditioned 图象扩散模型。所有的模型均以 2048 的 batch 大小训练了 500000 步,相当于 1B 张训练图象。

训练完成后,OpenAI 运用评价数据集上的形貌来为每个模型生成 50000 张图象。接着运用 Hessel et al. (2022) 的 CLIP-S 评价指标对这些生成的图象从事评价。他们挑选 CLIP 分数作为指标,该指标与文本图象相似度有很强的相关性。

OpenAI 首先运用公共 CLIP ViT-B/32 图象编码器来生成一个图象嵌入 z_i,然后运用文本编码器来为图象形貌 z_t 创建一个文本嵌入,最后将 CLIP 分数计算为余弦距离 C。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

接下来针对为所有 50000 个文本 / 图象对计算的余弦距离,OpenAI 执行了平均操作,并做了 100 倍重缩放(rescale)。

在计算 CLIP 分数,挑选运用哪个形貌非常重要。对于 OpenAI 的测试,他们要么运用真值形貌,要么运用形貌性分解形貌。同时,每次评价时都注明运用了哪个形貌。

形貌类型结果

OpenAI 首先分析了基于三类形貌训练的模型之间的性能差异,为此训练了以下三个模型:

仅在真值形貌上训练的文本到图象模型

在 95% 短分解形貌上训练的文本到图象模型

在 95% 形貌性分解形貌上训练的文本到图象模型

OpenAI 从事了两次评价,一次运用根据真值形貌计算的 z_t,一次运用根据形貌性分解形貌计算的 z_t。这里没有挑选短分解形貌的原因是,它们与本次评价中的真值情况非常相似。

结果如下图 4 所示,其中在分解形貌上训练的模型会得到比在真值形貌上评价的基线模型好一些的 CLIP 分数性能,并且在形貌性分解形貌上评价时性能会明显更好。这表明在训练文本到图象模型时运用分解形貌没有缺陷。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

形貌混杂比率

为了评价形貌混杂比率,OpenAI 运用不同混杂比率的形貌性分解形貌,训练了四个图象生成模型。他们分别挑选了 65%、80%、90% 和 95% 的分解形貌混杂比率。他们发现,实验从事到一半时,65% 的混杂比率在所有评价中远远落后于其他比率,因此放弃不用。

下图 5 中的结果表明,分解形貌混杂比率越高,CLIP 分数往往越高,两者呈正比关系。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

DALL-E 3

为了大规模测试分解文本,本文对 DALL-E 3 从事了训练。训练过程中,本文混杂运用了 95% 的分解文本和 5% 的真实文本。比较模型包括 DALL-E 2 以及 Stable Diffusion XL 1.0。

在 CLIP 得分评价中,DALL-E 3 优于 DALL-E 2 和 Stable Diffusion XL;在 Drawbench 基准评价中,DALL-E 3 同样优于 DALL-E 2 和 Stable Diffusion XL。

本文还将 DALL-E 3 生成的样例与其他模型生成的结果从事了对比。他们通过向人类评分员展示由相同形貌生成的两张并排的图象从事评分,评分中包括三个方面:提醒跟随(Prompt following) 、风格(Style)、连贯性( Coherence )。

提醒跟随:给评分 yuan 提供完整的图象形貌内容,要求评分员挑选更符合文本形貌的图象;

风格:让评分员想象一下自己正在借助一些工具根据文本生成图象。如果你自己正在运用此工具,请挑选你希望看到的图象;

连贯性:让评分员挑选哪张图象包含更连贯的东西,例如从人的身体部位、面部和姿势、东西的位置等方面做出判断。

结果显示,DALL-E 3 在所有三个方面,尤其是在提醒跟随方面,DALL-E 3 生成的图象在大多数情况下都比所有竞争对手更受人类评分者的青睐。

OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人

限制与风险

本文的最后一章是大家比较关心的关于限制与风险的问题。虽然 DALL-E 3 在 prompt 跟随方面表现出色,但它仍然在空间感知等方面表现不佳。例如,DALL-E 3 不能很好的理解左边、下面、后面等表示方位的词语。

此外,在建立文本形貌生成器时,本文着重考虑了一些突出的引导词(prominent words),这些引导词存在于原本图象以及生成的形貌中。因此,DALL-E 3 可以在出现 prompt 时生成文本。在测试过程中,本文注意到此功能并不可靠。本文怀疑这可能与运用 T5 文本编码器有关:当模型遇到 prompt 中的文本时,它实际上会看到代表整个单词的 token,并且将它们映射到图象中出现的文本。在未来的工作中,本文希望进一步探索字符级言语模型,以帮助改善 DALL-E 3 面临的这种限制。

最后,本文还观察到,分解的文本还会让生成的图片在重要细节上产生幻觉。这对下游任务产生了一定的影响,本文也表示,DALL-E 3 在为特定术语生成图象方面并不可靠。不过,该研究相信,对图象文本形貌的完善能进一步改善 DALL-E 3 的生成结果。

给TA打赏
共{{data.count}}人
人已打赏
工程

在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了

2023-10-20 15:18:00

工程

​参数少近一半,功能逼近谷歌Minerva,又一个数学大模型开源了

2023-10-23 11:39:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索