思维链提出者Jason Wei：关于大模型的6个直观

大模型究竟从下一个词猜测任意中学到了什么呢？还记得 Jason Wei 吗？这位思维链的提出者还曾共同领导了指令调优的早期工作，并和 Yi Tay、Jeff Dean 等人合著了关于大模型出现才智的论文。目前他正在 OpenAI 参与 ChatGPT 的开发工作。机器之心曾经报道过他为年轻 AI 研究者提供的一些建议。近日，他以客座讲师的身份为斯坦福的 CS 330 深度多任意进修与元进修课程讲了一堂课，分享了他对大型言语模型的一些直观认识。目前斯坦福尚未公布其演讲视频，但他本人已经在自己的博客上总结了其中的主要内

大模型究竟从下一个词猜测任意中学到了什么呢？

还记得 Jason Wei 吗？这位思维链的提出者还曾共同领导了指令调优的早期工作，并和 Yi Tay、Jeff Dean 等人合著了关于大模型出现才智的论文。目前他正在 OpenAI 参与 ChatGPT 的开发工作。机器之心曾经报道过他为年轻 AI 研究者提供的一些建议。

近日，他以客座讲师的身份为斯坦福的 CS 330 深度多任意进修与元进修课程讲了一堂课，分享了他对大型言语模型的一些直观认识。目前斯坦福尚未公布其演讲视频，但他本人已经在自己的博客上总结了其中的主要内容。

当今的 AI 领域有一个仍待解答的题目：大型言语模型的表现为何如此之好？对此，Jason Wei 谈到了六个直观认识。这些直观认识中许多都是通过人工检查数据得到的，Jason Wei 表示这是一种非常有帮助的实践措施，值得推荐。

言语模型的预训练目标就只是猜测文本语料的下一个词，而它们却从中学到了许多东西，着实让人惊讶。它们从下一个词猜测任意中学到了什么呢？下面有一些例子。

直观 1：基于大范围自监督数据的下一个词猜测是大范围多任意进修

尽管下一个词猜测是非常简单的任意，但当数据集范围很大时，就会迫使模型学会良多任意。比以下面的传统 NLP 任意就可以通过猜测语料文本的下一个词来进修。

思维链提出者Jason Wei：关于大模型的6个直观

上述任意很明确，但有点理想化。在现实情况中，猜测下一个词还会涉及到良多的「古怪」任意。以下列句子为例：

思维链提出者Jason Wei：关于大模型的6个直观

当以这样的方式看待这些数据时，很明显下一个词猜测会促使模型学到良多有关言语的东西，而不只是句法和语义，还包括标点符号猜测、事实猜测、甚至是推理。这些例子能够佐证这一观点：简单目标加上复杂数据可以带来高度智能的行为（如果你认同言语模型是智能的）。

直观 2：进修输入 – 输入关系的任意可以被视为下一个词猜测任意，这也被称为上下文进修

过去几十年，机器进修领域的重点就是进修 < 输入，输入 > 对的关系。由于下一个词猜测非常普适，因此我们可以轻松地把机器进修视为下一个词猜测。我们把这称为上下文进修（也称少样本进修或少样本提示工程）。这一领域的先驱研究是 GPT-3 论文，其中提出在自然言语指令后面加上 < 输入，输入 > 对。以下左图所示。

思维链提出者Jason Wei：关于大模型的6个直观

而在上图右侧，则可以看到增加上下文中的示例数量可以晋升 GPT-3 论文中任意的机能。这意味着，为模型提供 < 输入，输入 > 示例是有好处的。

上下文进修是使用大型言语模型的一种标准形式，而且很方便，因为 < 输入，输入 > 对就是过去几十年人们执行机器进修的方式。但是，我们为什么应当继续采用 < 输入，输入 > 对呢？我们还没有第一性原理的原因。当我们与人类交流时，我们也会向他们提供指示和解释，并以互动方式教导他们。

直观 3：token 大概有非常不同的信息密度，所以请给模型思考的时间

不同 token 的信息量也不同，这是一个基本事实。

一些 token 很容易猜测下一个，基本没多少信息。举个例子，如果有句子「I’m Jason Wei, a researcher at OpenAI working on large language 」，不难猜测下一个词是「models」。这个 token 的猜测是如此得容易，就算是省略它，这句话也不会丢失什么信息。

另一些 token 则极难猜测；它们的信息量很大。比如句子「Jason Wei’s favorite color is 」就基本不大概猜测正确。因为这个 token 包含大量新信息。

某些 token 也大概很难以计算。比如，在句子「Question:What is the square of ((8-2×3+4)^3/8?(A) 1,483,492; (B) 1,395,394; (C) 1,771,561; Answer: (」中，猜测下一个 token 就需要不少工作（计算数学式）。

可以想象一下，如果你是 ChatGPT，你必须一看到 prompt 就马上开始打字回复，那就很难答对这个题目。

对此的解决方案是为言语模型提供更多计算，让其执行推理，然后再给出最终答案。这可以通过一个简单技巧来实现，即思维链提示工程，其可以通过提供少样本「思维链」示例来鼓励模型执行推理，以下图蓝色高亮部分。

思维链提出者Jason Wei：关于大模型的6个直观

这项技术可用于晋升在人类也需要些时间来处理的复杂推理任意上的机能。对于比上面的算术题目更复杂的题目，它可以帮助言语模型将 prompt 首先分解成子题目，然后再按顺序解决这些子题目（从最少到最多提示工程）。

这种范式非常强大，因为我们希望 AI 最终能解决人类面临的最困难的题目（例如贫困、气候变化等），而推理才智是解决此类题目的基本组成部分。

上面的下一词猜测任意之所以有效，关键原因是范围，这就意味着要在更多数据上训练更大的神经网络。很显然，训练前沿言语模型需要花费良多资金，而我们之所以还这么做，是因为我们有信心使用更大的神经网络和更多数据就能得到更好的模型（即增大模型和数据范围时机能不会饱和）。

直观 4：预计增大言语模型范围（模型大小和数据）会改善受益

范围扩大可以晋升模型机能这一现象被称为 scaling laws，即扩大律；以下左图所示，随着计算量增长，测试受益也会平稳地下降。

思维链提出者Jason Wei：关于大模型的6个直观

右图则是另一个证据：通过跟踪较小模型的受益曲线，你可以使用少一万倍的计算量来猜测 GPT-4 的受益。

扩大范围为何有用还有待解答，但这里有两个尚待证明的原因。一是小言语模型的参数无法记忆那么多的知识，而大模型可以记忆大量有关世界的事实信息。第二个猜测是小言语模型才智有限，大概只能进修数据中的一阶相关性。而大型言语模型则可以进修数据中的复杂启发式知识。

直观 5：尽管总体受益会平稳地扩大，但单个下游任意的扩大情况则大概发生突变

我们来看看当受益降低时究竟会发生什么。我们可以将总体受益看作是在所进修的大量任意上的加权平均。

思维链提出者Jason Wei：关于大模型的6个直观

现在假设你的受益从 4 降到了 3。那么你的任意都会变好吗？大概不会。也许受益 = 4 的模型的语法就已经完美了，因此已经饱和了，但当受益 = 3 时模型的数学才智晋升了良多。

研究表明，如果观察模型在 200 个下游任意上的机能，你会看到尽管某些任意会平稳地晋升，但其它一些任意完全不会晋升，还有一些任意则会突然晋升。下图给出了 8 个这类任意的例子，其中模型较小时机能是随机的，而一旦模型范围到达一定阈值，机能就会显著超越随机。

对于这种由量变引起的质变现象，人们称之为「出现（emergence）」。更具体而言，如果一个才智在更小的模型中没有，但更大的模型有，我们就说这个才智是出现的才智。在这样的任意中，我们往往可以看到小模型的才智是大致随机的，而超过一定阈值范围的模型则会显著超越随机，以下图所示。

思维链提出者Jason Wei：关于大模型的6个直观

出现现象具有三个重要含义：

不能简单地通过外推更小模型的扩大曲线来猜测出现。

出现才智不是言语模型的训练者明确指定的。

由于范围扩大会解锁出现才智，因此可以预期进一步扩大还能进一步产生更多才智。

直观 6：确实是有真正的上下文进修，但只有足够大的言语模型才行

GPT-3 论文已经告诉我们，增加上下文中的示例数量可以晋升机能。尽管我们希望这是因为模型真的从其上下文示例中进修到了 < 输入，输入 > 映照关系，但机能的晋升还大概会有其它原因，比如示例告诉了模型有关格式或大概标签的信息。

事实上，论文《Rethinking the Role of Demonstrations: What Makes In-Context Learning Work?》表明，即使为上下文示例使用随机标签，GPT-3 的机能也几乎不会下降。其中认为，机能的晋升并非由于进修到了 < 输入，输入 > 映照关系，而是由于上下文让模型了解了格式或大概的标签。

但是，相比于当今最强大的模型，GPT-3 并非一个「超级」言语模型。如果我们对翻转标签（即正表示负，负表示正）采取更极端的设置，那么我们会发现言语模型会更严格地遵守翻转标签，而小模型则完全不会受到影响。以下图所示，大型言语模型（PaLM-540B、code-davinci-002 和 text-davinci-002）的才智下降了。

思维链提出者Jason Wei：关于大模型的6个直观