编辑 | 白菜叶
你的小学老师大概没有教你如何做 20 位数字的加减法。但如果你知道如何加减较小的数字,你所需要的只是纸和铅笔以及一点耐心。从个位开始,一步步向左,很快你就能轻松地积累出千万亿的数字。
像这样的课题对人类来说很容易处理,但前提是我们用正确的方式处理它们。「我们人类处理这些课题的方式并不是『盯着它然后写下谜底』。」哈佛大学机器学习研讨员 Eran Malach 表示,「我们实际上是走过这些台阶的。」
这一见解启发了研讨职员研讨为 ChatGPT 等聊天机器人提供支持的大型谈话模型。这些系统可以处理涉及少量算术方法的课题,但它们经常会搞砸涉及多个方法的课题,例如较量争论两个大数的总和。
但在 2022 年,谷歌研讨职员团队表明,要求谈话模型生成逐步处理方案,使模型能够处理以前看似无法处理的课题。他们的技术被称为「头脑链推理提示(chain-of-thought prompting)」,很快就得到了广泛应用,虽然研讨职员很难理解它的工作原理。
论文链接:https://arxiv.org/abs/2201.11903
现在,几个团队已经通过运用表面较量争论机科学的一个神秘分支(称为较量争论复杂性表面)的技术来探索头脑链推理的力量。
这是运用复杂性表面来研讨谈话模型的内在功能和局限性的一系列研讨的最新章节。这些研讨阐明了我们应该预期模型会在哪些方面失败,并且它们大概会指出构建模型的新方法。
「它们消除了一些魔力。」威斯康星大学麦迪逊分校的机器学习研讨员 Dimitris Papailiopoulos 说,「这是好事情。」
训练 Transformer
大型谈话模型是围绕称为人工神经收集的数学结构构建的。这些收集内的许多「神经元」对代表单个单词的长串数字执行简单的数学运算,将通过收集的每个单词转换为另一个单词。这种数学炼金术的细节取决于另一组称为收集参数的数字,它量化神经元之间的连接强度。
为了训练谈话模型产生连贯的输入,研讨职员通常从参数均具有随机值的神经收集开始,然后向其提供来自互联网的大量数据。每次模型看到一个新的文本块时,它都会尝试依次猜测每个单词:它根据第一个单词猜测第二个单词,根据前两个单词猜测第三个单词,依此类推。它将每个猜测与实际文本进行比较,然后调整其参数以减少差异。每次调整只会稍微改变模型的猜测,但不知何故,它们的集体效应使模型能够对其从未见过的输入做出连贯的响应。
20 年来,研讨职员一直在训练神经收集来处理谈话。但这项工作真正开始起步是在 2017 年,当时谷歌的研讨职员推出了一种名为 Transformer 的新型收集。
论文链接:https://arxiv.org/abs/1706.03762
智利天主教大学机器学习研讨员 Pablo Barceló 表示:「这是七年前提出的,看起来像是史前时代。」
Transformer 之所以如此具有变革性,是因为它很容易扩大规模——增加参数数量和训练数据量——而不会使训练成本过高。
在 Transformer 出现之前,神经收集最多有几亿个参数;如今,最大的基于 Transformer 的模型已超过一万亿。过去五年中谈话模型性能的大部分改进都来自简单的扩展。
Transformer 通过运用称为 attention heads 的特殊数学结构使这成为大概,这使它们能够鸟瞰它们正在阅读的文本。当 Transformer 读取一个新的文本块时,它的 attention heads 会快速扫描整个文本并识别单词之间的相关联系——也许会注意到第四个和第八个单词大概对于猜测第十个单词最有用。然后,attention heads 将单词传递到一个称为前馈收集的巨大神经元收集,该收集进行大量数字运算,从而生成有助于学习的猜测。
真正的 Transformer 具有由前馈收集分隔的多层 attention heads,并且仅在最后一层之后输入猜测。但在每一层,attention heads 已经识别出每个单词最相关的上下文,因此较量争论密集型前馈方法可以针对文本中的每个单词同时发生。这加快了训练过程,使得利用越来越大的数据集训练 Transformer 成为大概。更重要的是,它允许研讨职员将训练大型神经收集的巨大较量争论负载分散到多个协同工作的处理器上。
为了充分利用海量数据集,「你必须让模型变得非常大。」圣母大学机器学习研讨员 David Jiang 表示,「除非并行化,否则训练它们是不切实际的。」
然而,使训练 Transformer 变得如此容易的并行结构在训练后并没有帮助——此时,不需要猜测已经存在的单词。在普通操作期间, Transformer 一次输入一个字,在生成下一个字之前将每个输入重新附加到输入上,但它们仍然停留在针对并行处理优化的架构上。
随着基于 Transformer 的模型不断发展,某些任务继续给它们带来麻烦,一些研讨职员开始怀疑,推动更可并行化的模型是否需要付出代价。有没有办法从表面上理解 Transformer 的行为?
Transformer 的复杂性
神经收集的表面研讨面临许多困难,特别是当它们试图解释训练时。神经收集运用众所周知的程序在训练过程的每一步调整其参数。但很难理解为什么这个简单的过程会收敛于一组良好的参数。
一些研讨职员没有考虑训练期间发生的情况,而是通过想象可以将其参数调整为任意值来研讨 Transformer 的内在功能。这相当于将 Transformer 视为一种特殊类型的可编程较量争论机。
「你有一些较量争论设备,你想知道,『它能做什么?它可以较量争论哪些类型的函数?』」Chiang 说。
这些是正式较量争论研讨的中心课题。该领域的历史可以追溯到 1936 年,当时 Alan Turing 首次设想了一种奇特的设备,现在称为图灵机,它可以通过在无限磁带上读写符号来执行任何较量争论。
较量争论复杂性表面家后来以 Turing 的工作为基础,证明较量争论课题自然地分为由处理它们所需的资源定义的不同复杂性类别。
2019 年,Barceló 团队证明,具有固定数量参数的理想化 Transformer 版本可以与图灵机一样强大。如果你设置一个 Transformer 来重复将其输入作为输入反馈,并将参数设置为你想要处理的特定课题的适当值,它最终会给出正确的谜底。
论文链接:https://arxiv.org/abs/1901.03429
该结果是一个起点,但它依赖于一些不切实际的假设,这些假设大概会高估 Transformer 的功率。在那以后的几年里,研讨职员一直致力于开发更现实的表面框架。
其中一项研讨始于 2021 年,当时纽约大学研讨生 William Merrill 即将离开西雅图艾伦人工智能研讨所。在那里,他运用了似乎不太适合 Transformer 并行架构的技术来分析其他类型的神经收集。离开前不久,他与艾伦人工智能研讨所研讨员 Ashish Sabharwal 进行了讨论,后者在进入人工智能研讨之前曾研讨过复杂性表面。他们开始怀疑复杂性表面大概有助于他们理解 Transformer 的局限性。
「这看起来只是一个简单的模型;肯定存在一些可以确定的限制。」Sabharwal 说。
两人运用较量争论复杂性表面的一个分支(称为电路复杂性)分析 Transformer ,该表面通常用于研讨并行较量争论,最近已应用于简化版本的 Transformer 。在接下来的一年里,他们改进了之前工作中的一些不切实际的假设。
论文链接:https://arxiv.org/abs/2204.06618
为了研讨 Transformer 的并行结构如何限制它们的能力,两人考虑了 Transformer 不将输入反馈到输入的情况,相反,它们的第一个输入必须是最终谜底。
他们证明,这个表面框架中的 Transformer 无法处理特定复杂性类别之外的任何较量争论课题。许多数学课题,包括求解线性方程等相对简单的课题,被认为不属于该课程。
论文链接:https://arxiv.org/abs/2207.00729
基本上,他们表明并行性确实是有代价的——至少当 Transformer 必须立即给出谜底时是这样。Merrill 说:「如果你运用 Transformer 的方式是提供输入,然后只期望立即得到谜底,那么 Transformer 就非常弱了。」
思想实验
Merrill 和 Sabharwal 的研讨结果自然而然地提出了一个课题:当 Transformer 被允许回收其输入时,它们的能力会增强多少?Barceló 团队在 2019 年对理想化 Transformer 的分析中研讨了这个案例,但有了更现实的假设,这个课题仍然悬而未决。在随后的几年里,研讨职员发现了头脑链提示,使这个课题有了新的相关性。
Merrill 和 Sabharwal 知道,他们的纯数学方法无法捕捉真实谈话模型中头脑链提示的所有信息,其中提示中的措辞大概非常重要。
论文链接:https://arxiv.org/abs/2212.10001
但无论提示如何措辞,只要它使谈话模型输入逐步处理方案,该模型原则上就可以在后续通过 Transformer 时重用旁边方法的结果。这可以提供一种规避并行较量争论限制的方法。
与此同时,北京大学的一个团队也一直在沿着类似的思路思考,他们的初步结果是积极的。在 2023 年 5 月的一篇论文中,他们确定了 Merrill 和 Sabharwal 框架中普通 Transformer 无法处理的一些数学课题,并表明旁边方法使 Transformer 能够处理这些课题。
论文链接:https://arxiv.org/abs/2305.15408
10 月份,Merrill 和 Sabharwal 继续他们早期的工作,对头脑链的较量争论能力进行了详细的表面研讨。他们量化了额外的较量争论能力如何取决于 Transformer 在必须给出最终谜底之前允许运用的旁边方法的数量。
论文链接:https://arxiv.org/abs/2310.07923
一般来说,研讨职员期望处理任何课题的旁边方法的适当数量取决于课题输入的大小。例如,将两个 20 位数字相加的最简单策略所需的旁边加法方法是用相同方法将两个 10 位数字相加所需的旁边加法方法的两倍。
像这样的例子表明, Transformer 仅仅运用几个旁边方法并不会获得太多好处。事实上,Merrill 和 Sabharwal 证明,只有当旁边方法的数量与输入的大小成比例增长时,头脑链才真正开始发挥作用,并且许多课题需要旁边方法的数量继续增长。
结果的彻底性给研讨职员留下了深刻的印象。「他们确实确定了这一点。」哥伦比亚大学机器学习研讨员 Daniel Hsu 说。Merrill 和 Sabharwal 最近的研讨表明,头脑链并不是万能的——原则上,它可以帮助 Transformer 处理更困难的课题,但代价是大量的较量争论工作。
「我们对一次性处理 Transformer 局限性的不同方法感兴趣。」Merrill 说,「头脑链是一种方法,但本文表明这大概不是最经济的方法。」
Back to Reality
尽管如此,研讨职员提醒,这种表面分析只能揭示有限的真实谈话模型。积极的结果——证明 Transformer 原则上可以处理某些课题——并不意味着谈话模型实际上会在训练过程中学习这些处理方案。
即使处理 Transformer 局限性的结果也应注意:它们表明没有 Transformer 可以在所有情况下完美处理某些课题。当然,这是一个相当高的门槛。「大概有一些特殊情况的课题它可以很好地处理。」Hsu 说。
尽管如此,这项新工作还是提供了一个模板,用于分析不同类型的神经收集架构,这些架构最终大概会取代 Transformer。如果复杂性表面分析表明某些类型的收集比其他类型的收集更强大,那么这将证明这些收集在现实世界中也大概表现得更好。
Chiang 还强调,随着谈话模型越来越广泛地应用于现实世界的应用中,对 Transformer 局限性的研讨就更有价值,很容易高估它们的能力。
「实际上有很多事情他们做得不太好,我们需要非常非常认识到局限性。」Chiang 说,「这就是为什么这种工作非常重要。」
相关报道:https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/