AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

AI 研讨发展的重要推动力是什么?在最近的一次讲演中,OpenAI 研讨科学家 Hyung Won Chung 给出了自己的答案。近日,斯坦福大学《CS25: Transformers United V4》课程迎来了一位我们熟悉的技术牛人:Hyung Won Chung。Chung 是 OpenAI ChatGPT 团队的研讨科学家,博士毕业于麻省理工学院,之后曾在谷歌从事了三年多的研讨工作,参与了 PaLM、Flan-T5 和 BLOOM 等多个重要项目。机器之心之前曾报道过他的另一个热门讲演:《OpenAI 科

AI 研讨发展的重要推动力是什么?在最近的一次讲演中,OpenAI 研讨科学家 Hyung Won Chung 给出了自己的答案。

近日,斯坦福大学《CS25: Transformers United V4》课程迎来了一位我们熟悉的技术牛人:Hyung Won Chung。

Chung 是 OpenAI ChatGPT 团队的研讨科学家,博士毕业于麻省理工学院,之后曾在谷歌从事了三年多的研讨工作,参与了 PaLM、Flan-T5 和 BLOOM 等多个重要项目。机器之心之前曾报道过他的另一个热门讲演:《OpenAI 科学家最新大言语模型讲演火了,洞见 LLM 成功的关键》。

在这次讲演中,他将阐述 AI 研讨的重要推动力并尝试通过 Transformer 的发展(尤其是编码器 – 解码器 Transformer 和仅解码器 Transformer 的比较)来明白这个重要推动力。因此,这并不是一次关注技术细节的讲演,而是侧重于分享观点。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

讲演开篇,Chung 向来听讲的学生透露表现了鼓励:「这间教室中的某些人将会塑造 AI 的未来。」

而要洞见未来,我们必须了解历史。这就引出这次讲演的核心:Transformer 的早期历史以及一些 Transformer 架构。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

众所周知,AI 领域发展很快,让人难以追赶,而且就算是经验丰富的研讨者,也不可能了解所有最新进展;与此同时,人们对过去的关注却不够,因为它们看起来似乎已经过时无用了。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

但 Chung 认为回首过去是很重要的,当然他所指的并不是去研讨过去的技术,而是研讨「变化(change)」本身,也就是通过了解过去来明白现在,从而洞见从过去到现在的发展之路,然后基于此展望未来。

具体来说,为了研讨「变化」,我们可以按以下三步进行:

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

首先,我们需求找到这一变化背后的重要推动力。当然,变化的推动力往往很多,这里关注的是重要推动力。然后,明白这些重要推动力。之后便可以基于这些明白来预测未来的发展方向。

为了佐证自己的观点,Chung 在现场做了一个小实验:丢笔。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

首先,找到导致笔落下的重要推动力:重力。这里忽略摩擦力等其它因素。

接下来明白重力:牛顿力学能提供一个很好的模型。

之后,基于该模型,我们就能预测这支笔的未来运动轨迹。

当然,这个示例非常简单。在日常生活和工作中,一般意义上的预测未来却非常困难,因为其涉及大量复杂驱动力的互相交织,以至于我们几乎无法办到。如下图所示,预测难度会随重要推动力的数量增长而大幅提升。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

那这和 AI 领域有什么关系呢?

如今的 AI 领域堪称百花齐放,几乎每天都有新技术、新模型、新智能体、新基准、新产品等等出现,人们已经无力紧跟每一项最新进展了,那么我们该如何预测 AI 研讨的未来呢?

AI 研讨的重要推动力是什么?

类似地,我们首先需求找到 AI 研讨的重要推动力。Chung 认为确实存在着一个推动大量甚至全部 AI 研讨的重要推动力,而且这个推动力可能比我们之前预想的更简单一些 —— 也就是更靠近以上图表的左侧。

那么这个重要推动力是什么呢?

首先来看 Rich Sutton 做的一张图。其中,y 轴是 1 美元所能买到的算力(请注意这是对数刻度), x 轴是时间。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

可以看到,其变化趋势几乎就是指数级的 —— 每隔 5 年,算力成本就会降低 10 倍。这是一个非常强大且已经持续了 100 多年的趋势。这类趋势是无可抗拒的;我们需求思考该如何去利用这样的趋势。事实上,这正是 AI 研讨的重要推动力,是 AI 实现 scaling(规模扩大)的基础。

算力成本指数级下降如何推动了 AI 研讨呢?

这要从 AI 研讨者的工作谈起。AI 研讨者的工作是教会机器学会普适性的思考,而人们通常采用的方式以某种数学方式建模我们自身思考的方式,然后将其集成到机器之中。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

但问题来了:我们并不完全明白我们自身的思考方式。因此,AI 研讨者其实是在建模一种他们根本不了解的东西。这类方法自然存在根本性缺陷。

如果采用这类范式,也确实能得到一些解决问题的布局,然后 AI 研讨者可以基于此写出一些研讨论文并开发出一些工具,但之后这就会变成一个瓶颈,限制进一步的扩大。更根本的问题是,这会限制给予机器的自由度,进而在某个时候造成适得其反的结果。

Chung 透露表现,这类情况已经持续了几十年。他谈到了 Rich Sutton 写的一篇文章《苦涩的教训》,他也认为这是「AI 领域最重要的一篇文章」。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

简单总结起来,这篇文章写到过去 70 年 AI 领域的发展可总结成使用越来越弱的建模假设来开发越来越通用的方法,同时使用更多数据和计算量(即规模扩大)。举个例子,从技术角度看,2000 年左右的 AI 的设计方法就比现在 AI 的更困难。

这是 AI 研讨领域一直以来的范式,并没有什么新奇的地方。

但现在的 AI 却远比 2000 年的 AI 强大。Chung 在此给出了自己的关键洞见:计算成本的下降是指数级的,这就意味着成本降低的速度超过了 AI 研讨者精进自身的速度,而 AI 研讨者不应该去对抗这类大势,而应当尽力去利用它。

接下来 Chung 通过一张图表进行了说明。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

图中,x 轴是计算量,y 轴是性能,两条线则各自透露表现一种范式。More structure(更多布局)是指采用更多建模假设、更精妙的数学形式等复杂设计的范式,相对的就是 Less structure(更少布局)范式。

可以看到,当计算量较少时,更多布局范式的表现通常更好,但是由于某种布局上的瓶颈,就算增大计算量,其性能也难再进一步提升。而对于更少布局范式,由于模型的自由度更高,因此一开始其效果不佳,而随着其获得的计算量增长,它也开始有效果了并还越来越好。因此这类范式更具扩大性。

这就意味着我们应该直接选择布局最少、模型最自由的方法吗?

答案当然是否定的。

我们可以思考一下布局还要进一步更少的情况,如下图中的红线所示。此时要让模型有效,所需的计算量将大幅增长。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

因此,布局的多少取决于我们现在的实际情况。我们不可能什么都不做,只是无限地等待下去,直到出现最通用的情况。

假设我们现在处于图中竖直虚线的位置,那么选择「更少布局」就比选择「进一步更少布局」更好,因为后者对现在的我们毫无用处。

但关键需求记住:添加一些布局的原因是算力不够。之后算力足够时,我们可以移除这些布局。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

也就是说,在给定的计算量、数据、算法和架构下,存在一个最优的归纳偏置或布局。这实际上也是当前 AI 领域各种进展的原因。但是,这些归纳偏置或布局会阻碍未来进一步的规模扩大,因此当未来有更多算力或更少的算法等时,就需求将它们移除。

Chung 透露表现,AI 研讨社区在添加布局方面做得很好,因为这能用来发论文;但在移除布局方面做得还不够,因为这没多少好处。他呼吁 AI 研讨社区更多关注这一方面。他说这也是一个苦涩的教训,并透露表现:「长期来看更好的东西在短期来看几乎必定更糟糕。」

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

他认为这算是 AI 研讨领域的一个特有现象,因为当前的 AI 研讨范式是基于学习的方法,也就是说让模型自由地选择学到什么。而正因为模型获得了学习的自由,所以早期的时候情况显得很混乱,效果也不好。然后,随着投入的算力增多,模型也越来越好。

总结一下:AI 研讨背后的重要推动力是:成本指数级下降的算力和相关的规模扩大。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

用 Transformer 的发展历程明白 AI 研讨的重要推动力

找到了 AI 研讨的重要推动力,接下来我们就需求明白它,这也是 Chung 这次讲演的重点。为此,Chung 将带我们一道回顾 Transformer 的发展历史,分析不同时期研讨者做出的关键布局选择及其原因 —— 这些布局选择在当时是否为最优的可能已经不重要,我们现在或许也应该移除它们了。

现在稍微加点技术内容:Transformer 架构是怎样的?

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

Transformer 有多种变体。Chung 将探讨其中三种:编码器 – 解码器、仅编码器、仅解码器。其中编码器 – 解码器 Transformer 是原始版本的 Transformer,其布局也更多;仅编码器 Transformer 的代表是 BERT;而仅解码器 Transformer 家族则包括 GPT-3 等言语模型,其布局远少于编码器 – 解码器版本。

仅编码器 Transformer 虽然有些用途,但实际上在大多数情况下并不很有用,因此 Chung 先简单谈了谈它,然后重点比较了编码器 – 解码器 Transformer 与仅解码器 Transformer。

我们首先在一个非常高的层级上看看 Transformer:Transformer 是一种序列模型,而序列模型的输入为一个序列,而序列中的元素可以是词或图像等等。这是一个普适的概念。

在下图的示例中,序列元素是词,而词构成的序列就是句子:「Unicode characters like emojis may be split.」。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

首先,第一步是 token 化。这需求某种编码方案,从而以计算机能明白的方式透露表现词。这里是将序列 token 化为一定数量的整数,从而得到一个整数序列。

然后,现在的主导范式是将每个序列元素透露表现成一个向量,从而得到一个向量序列。

最后就要用到序列模型了,其方针是建模序列元素之间的交互关系,具体的做法就是计算这些向量元素之间的点积。如果点积较高,则可以说它们关联得更紧密。

Transformer 这类特殊的序列模型使用了所谓的注意力(attention)来建模这类交互关系。

编码器 – 解码器 Transformer

下面深入原始的编码器 – 解码器 Transformer 的细节:

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

可以看到,它有很多组件,而它在这里需求执行一个机器翻译恣意:将英语「That is good」翻译成德语。

我们先看向左侧,这是其中的编码器。首先,它需求将那句英语编码成密集向量(图中透露表现成了大小为 3 的向量)。然后,执行点积,也就是图中的线 —— 可以看到,这里的每个 token 都连接了所有其它 token。这被称为双向自注意力(bidirectional self-attention)。

之后是一些 MLP 或前向层。它们不进行交互,只是为各个 token 执行一些乘法。

而这只是其中一层,实际的 Transformer 编码器会重复 N 层。

最后会得到一个向量序列,其中每个向量都透露表现一个序列元素(这里是词)。这就是编码器的输入。

然后看向右侧的解码器。同样这也会堆叠很多层。

训练时,向解码器输入应该得到的答案:[BOS] Das ist gut。其中 [BOS] 是指「序列开始」。

同样,将其编码成密集向量,只是之后使用的注意力是因果自注意力(causal self-attention),也就是说时间步骤 t 的 token 只能关注 t 以及之前的 token,因为当模型开始生成翻译结果时,它无法看到未来的 token。在训练时,这可以通过掩码(masking)方法来实现。

之后,同样的重复 N 层,最后得到输入序列:Das ist gut [EOS]。其中 [EOS] 是指「序列结束」。因此这是一种序列到序列的映射。

这就是编码器 – 解码器 Transformer 的总体概况。接下来 Chung 指出了某个重要的注意力模式,也就是将解码器和编码器连接起来的跨注意力机制(cross-attention mechanism)。具体来说,对于编码器输入的序列中的每个向量表征,解码器应该关注其中一些。有趣的是,解码器中的所有层关注的都是解码器最终层的输入。

仅编码器 Transformer

暂时请记住这一设计,后面会用。我们先看另一种架构:仅编码器 Transformer。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

可以看到,仅编码器 Transformer 与编码器 – 解码器架构的编码器部分基本一样。

以同样的输入为例(前面增加了一个特殊 token [CLS]),经过编码器处理后,这里会得到透露表现整个序列的单个向量(而不是一个序列)。

假如这里的恣意是情绪分析,就需求在后面增加针对该特定恣意的层,以将这个向量映射成分类标签(这里是积极和消极)的概率。

这类架构的杰出代表是 BERT。2018 年 BERT 刚问世就在言语明白恣意基准 GLUE 上刷榜了,因为大多情况都可以将序列放入分类标签中。

Chung 透露表现这就是当时 AI 领域取得的进步。在我们考虑解决问题时,我们通常希望简化问题,然后向问题添加布局来取得进展,但这里新增的布局其实是放弃生成部分。这样一来,问题就简单多了:不再是序列到序列,而是序列到分类标签。

基于此,在 2018 和 2019 年那两年,涌现了很多研讨 BERT 的论文。Chung 打趣地说:「我们称之为 BERT 工程。」实际上就是对 BERT 做一些细微的修改,使之在 GLUE 基准上提升一点点,然后写一篇论文。那时候很混乱,但如果高屋建瓴地看,放弃生成序列的做法确实能带来很大的性能增益,但难以长期持续,所以实际上用处不大。因此,后面也不会过多谈及仅编码器 Transformer。

仅解码器 Transformer

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

Chung 透露表现仅解码器 Transformer 是他的最爱。乍一看这似乎很复杂,但那其实都是注意力,这个架构实际上很简单。

对于仅解码器 Transformer,有的人有一个误解:该架构的作用是言语建模的下一 token 预测,不能用来监督学习。但实际上可以做到,其诀窍就是将输入与方针输入连接起来。这样一来,就变成了简单的序列到序列。

其中因果自注意力机制的作用有两个:处理方针序列和输入序列之间的交叉注意力以及实现每个序列之中的自注意力学习。这里的关键设计是自注意力也能作为跨注意力,并且输入和方针在一定程度上共享参数。

将编码器 – 解码器变成仅解码器

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

接下来,通过将布局更多的编码器 – 解码器 Transformer 变成仅解码器 Transformer,Chung 将带我们看到并明白这两种架构之间的差异。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

首先在跨注意力方面,如上图所示,左侧的编码器 – 解码器有粉色标记的跨注意力,而右侧的仅解码器没有。如果我们想把左侧架构变成右侧的,那么就需求去掉这些跨注意力。注意力机制大概有 4 个投射矩阵,并且自注意力和跨注意力实际上有同样的参数量和形状,因此可以选择共享它们。这样一来,它们就变成了基本一样的注意力。

第二个差异是参数共享,也就是说在输入和方针序列之间,编码器 – 解码器架构使用了不同的参数,而仅解码器只有一个堆栈,也就是使用了共享参数。因此,如果要将左边变成右边,就需求共享左边的编码器参数。

第三个差异是方针到输入的注意力模式。在编码器 – 解码器架构中,这是通过跨注意力实现的;而在仅解码器架构中,都是自注意力。差异在于,在编码器 – 解码器架构中,解码器中的每一层都关注编码器的最终层输入;而在仅解码器架构中,则是在各层本身之中。为了将左侧变成右侧,就需求将注意力带回各层之中。

最后一个差异是输入注意力。编码器 – 解码器架构有双向注意力,而仅解码器有单向注意力。为了让它们匹配,这里的做法很简单:直接去掉编码器 – 解码器架构中的一个方向。

这样一来,这两种架构就几乎一模一样了,只在跨注意力有一点差异,但它们的参数量是一样的。Chung 透露表现,如果使用同样的方法和数据针对同样的恣意训练它们,那么得到的结果也会差不多,因此可以说它们是一样的。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

下表总结了这四项差异:

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

那么相比于仅解码器 Transformer,编码器 – 解码器架构多了哪些布局呢?

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

首先,在编码器 – 解码器架构中,输入序列和方针序列足够不同,因此对该架构而言,分开使用不同的参数是有效的。

Chung 继续以机器翻译为例进行了说明。在 2017 年 Transformer 刚诞生的时候,翻译是一个非常受欢迎的恣意,因为其难度还很大;而且这还是一个序列到序列恣意,可以通过一个 GLUE 分数来度量,从而为研讨者提供一个优化基准。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

在机器翻译恣意中,输入和方针是不同言语的序列。如果模型的学习方针就只是执行翻译,那么让编码器中的参数处理英语并让解码器中的参数用于德语就是非常合理的做法,也是很自然的做法。

但现在的言语模型就不只是执行翻译了,甚至都可以说不只是关于言语的,而是为了学习知识。Chung 透露表现这些能力都是「下一 token 预测的副产品」。那么,在这类情况下,对于同样的知识,如果只是言语不同,再将参数分开还合理吗?Chung 认为这并不合理,也不自然。而且也正是因为没有分开,现代言语模型所能做的事情要多得多。

Chung 又给出了另一个例子。这是他两年前还在谷歌时做的一项有关指令微调的研讨《Scaling Instruction-Finetuned Language Models》。简单来说,该研讨就是使用学术数据集来微调已经完成预训练的模型。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

这里我们来看看对两个不同的架构进行指令微调所获得的增益。如下图所示,上面五个数据基于模型 Flan T5,这是一种编码器 – 解码器架构的模型;下面的 PaLM 则是仅解码器架构。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

Chung 透露表现,他们花了大量时间来优化 PaLM,而对于 T5 则仅仅用了三天,结果 T5 获得性能增益却要大得多。

Chung 说:「我当时对此深感困惑。」因此在这篇论文发表之后,他又做了进一步的研讨,希望找到这一现象背后的原因。他的假设是这与长度有关。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

他们使用的学术数据集包含 1832 个恣意。这些恣意基本都有一个特点:输入长但方针输入短。输入长的原因是让恣意变得复杂和困难,而方针短则是为了方便评估。因此,输入序列的长度分布就如以上上图所示,方针序列的长度分布则是以上下图那样。对于编码器 – 解码器架构,就是编码器和解码器分别处理一种不同类型的序列,而它也正好擅长这类情况 —— 适合处理这个学术数据集。Chung 说:「我认为这就是一个意外。」

现在,越来越多用例涉及到生成更长的方针序列,并且像是聊天这样的应用还涉及到将这一轮的输入用作下一轮的输入,编码器 – 解码器架构的这类针对非常特定数据集的优势就没有了。毕竟如果下一轮的输入和上一轮的输入一样,那么为输入和方针分开配置参数就没有道理了。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

这是编码器 – 解码器中的第一个归纳偏置或布局,另一个布局则是其方针元素只能关注已经完全编码的元素,即编码器的最终输入。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

通常而言,在深度神经网络中,较低层和较高层编码信息的层级是不一样的。比如在计算机视觉模型中,较低层编码的是线条、点、颜色等基础特征,而更高层会将这些特征组合起来,编码更复杂的信息,比如猫脸。因此,这类深度学习也被称为分层表征学习。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

那问题就来了:如果解码器的第 1 层也是关注编码器的最终层(它们可能有非常不同的信息层级),那么这是否会成为一个信息瓶颈呢?

当然,Chung 也指出在实践中,这还不成问题,因为 T5 的编码器层也不过 20 多层,但如果编码器的层数再多十倍乃至百倍呢?

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

然后就是编码器 – 解码器架构比仅解码器多的最后一个布局:双向的输入注意力。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

2018 年诞生的 BERT 中的「B」便是指双向(bidirectional)。那时候,人们在竞相解决问答 SQuAD 恣意 —— 这是一个非常困难的恣意。这类新增的技巧能带来很大收益。双向对于此类恣意还是很用的,大概将 SQuAD 分数提升了大约 20 点 —— 很大的进步。

但是,Chung 透露表现,一旦规模变得足够大,这类增加双向性质的技巧就不重要了。他及团队用 Flan 2 尝试了双向和单向微调,结果性能差异不大;但对于多轮聊天等应用,开发双向注意力的难度很大。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

原因也很容易明白。对于每一轮对话,都必须重新编码新的输入。对于单向架构来说,编码新输入的消息就够了。但对于双向架构,每一轮都需求再次编码新输入,如下图的例子所示。

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

也就是说,在 2018 年表现很好的双向注意力已经被规模扩大接替了,而且由于双向注意力的工程开发难度更大,我们也不需求它了。

结语

AI研讨的重要推动力会是什么?ChatGPT团队研讨科学家:算力成本下降

最后,Chung 简单总结了这次讲演的内容:

找到了 AI 研讨的重要推动力,即计算成本呈指数级下降以及相关的规模扩大;

为了明白这类重要推动力,分析了编码器 – 解码器 Transformer 比仅解码器 Transformer 多的布局并从规模扩大角度思考了其意义。

他透露表现,分析过去的架构并非毫无用处,这能为我们提供一个更加统一的视角,帮助我们了解有哪些布局其实最终可能被规模扩大接替。他说:「我们能很好地共同塑造 AI 的未来。」

给TA打赏
共{{data.count}}人
人已打赏
理论

算计效率提升100倍以上,上交李金金团队开发基于Transformer的大模型用于从头算份子动力学

2024-6-17 15:06:00

理论

「新生」古生物份子,AI解决抗生素耐药性,复旦、宾大合作团队两篇论文登Cell和Nature子刊

2024-6-19 11:56:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索