「think step by step」还不够,让模型「think more steps」更有用

本文对头脑链的推理步长进行了控制变量尝试,发现推理步长和答案的准确性是线性相关的,这种作用机制甚至超越了成绩本身所产生的差异。如今,大型语言模型(LLM)及其高级提醒战略的出现,标志着对语言模型的钻研取得了重大进展,尤其是在经典的 NLP 义务中。这其中一个关键的创新是头脑链(CoT)提醒技术,该技术因其在多步调成绩解决中的本领而闻名。这项技术遵循了人类的顺序推理,在各种挑战中表现出了优秀的功能,其中包括跨域、长泛化和跨语言的义务。CoT 及其富有逻辑的、循序渐进的推理要领,在复杂的成绩解决场景中提供了至关重要的可

本文对头脑链的推理步长进行了控制变量尝试,发现推理步长和答案的准确性是线性相关的,这种作用机制甚至超越了成绩本身所产生的差异。

如今,大型语言模型(LLM)及其高级提醒战略的出现,标志着对语言模型的钻研取得了重大进展,尤其是在经典的 NLP 义务中。这其中一个关键的创新是头脑链(CoT)提醒技术,该技术因其在多步调成绩解决中的本领而闻名。这项技术遵循了人类的顺序推理,在各种挑战中表现出了优秀的功能,其中包括跨域、长泛化和跨语言的义务。CoT 及其富有逻辑的、循序渐进的推理要领,在复杂的成绩解决场景中提供了至关重要的可解释性。

尽管 CoT 取得了长足的进展,但钻研界尚未就 CoT 及其变体的具体机制和有效原因达成共识。这种知识差距意味着普及 CoT 功能仍是一个探索领域。而这种探索主要依赖于试错,因为目前还缺乏改进 CoT 效果的系统性要领论,钻研人员只能依赖猜测和尝试。但是这也同时表明该领域存在着重要的钻研机遇:对 CoT 的内部运作形成更深入、更结构化的理解。如果实现这个目标,不仅能揭开当前 CoT 流程的神秘面纱,还能为在各种复杂的 NLP 义务中更可靠、更高效地应用这种技术铺平道路。

来自美国西北大学、利物浦大学和新泽西理工大学等的钻研者们,进一步探讨了推理步调的长度与结论准确性之间的关系,帮助人们加深关于如何有效解决 NLP 成绩的理解。下面这篇文章探索了推理步调是否是促使 CoT 发挥作用的 prompt 中最关键的部分(见图 1)。本文尝试中严格的控制变量,特别是在加入新的推理步调时,钻研者会确保不会引入额外的知识。在零样本尝试中,钻研者将初始 prompt 从「请逐步考虑」调整为「请逐步考虑,并且尽可能考虑出更多的步调」。对于小样本成绩,钻研者设计了一个尝试,在保持所有其他因素不变的情况下,扩展基础推理步调。

「think step by step」还不够,让模型「think more steps」更有用

论文标题:The Impact of Reasoning Step Length on Large Language Models

论文链接:https://arxiv.org/pdf/2401.04925.pdf

「think step by step」还不够,让模型「think more steps」更有用

本文的第一组尝试评估了在上述战略下,使用 Auto-CoT 技术,在零样本和小样本义务中推理功能的普及情况。随后,本文评估了不同要领在不同推理步数下的准确性。接着,钻研者扩大了调研对象,比较了本文提出的战略在不同 LLM(如 GPT-3.5 和 GPT-4)上的有效性。钻研结果表明,在一定范围内,推理链的长度与 LLM 的本领之间存在明显的相关性。但耐人寻味的是,当钻研者在推理链中引入误导信息时,功能仍然有所普及。这推导出了一个重要结论:作用功能的关键因素似乎是头脑链的长度,而不是其准确性。

本文的主要发现如下所示:

对于小样本 CoT,推理步数和精度之间存在直接的线性关系。这为优化复杂推理中的 CoT 提醒提供了一种可量化的要领。具体来说,添加 prompt 中的推理步调大大普及了 LLM 在多个数据集上的推理本领。反过来,即使在保留了关键信息的情况下,缩短推理步调也会显著削弱模型的推理本领。

即使是不正确的推理,如果能保持必要的推理长度,也能产生有利的结果。例如,在数学成绩等义务中,流程中产生的中间数字出错也不太会作用最终结果。

添加推理步调所产生的收益大小受限于义务本身:更简单的义务需要更少的步调,而更复杂的义务则从更长的推理序列中获得显著收益。

添加零样本 CoT 中的推理步调也可以显著普及 LLM 的准确性。

钻研要领

钻研者通过分析来检验推理步调与 CoT 提醒功能之间的关系。要领的核心假设是,推理流程中的序列化步调是 CoT 提醒中最关键的组成部分,能够使语言模型在生成回复内容时应用更多的逻辑进行推理。为了测试这一观点,本文设计了一个尝试,在 CoT 的推理流程中先后扩展和收缩基础推理步调,同时保持所有其他因素不变。具体而言,钻研者只系统地改变推理步调的数量,不引入新的推理内容或删除已有的推理内容。钻研者在下文中评估了零样本和少样本的 CoT 提醒。整个尝试流程如图 2 所示。通过这种控制变量分析的要领,钻研者阐明了 CoT 如何作用 LLM 生成逻辑健全的应答本领。

「think step by step」还不够,让模型「think more steps」更有用

零样本 CoT 分析

在零样本场景中,钻研者将最初的 prompt 从「请逐步考虑」修改为「请逐步考虑,并且尽可能考虑出更多的步调」。之所以做出这一改变,是因为与少样本 CoT 环境不同,使用者不能在使用流程中引入额外的推理步调。通过改变初始 prompt,钻研者引导 LLM 进行了更广泛的考虑。这种要领的重要性在于能够普及模型的准确性,而且不需要少样本场景中的典型方案:增量训练或额外的示例驱动优化要领。这种精细化战略确保了更全面、更详细的推理流程,显著普及了模型在零样本条件下的功能。

小样本 CoT 分析

本节将通过添加或收缩推理步调来修改 CoT 中的推理链。其目的是钻研推理结构的变化如何作用 LLM 决策。在推理步调的扩展流程中,钻研者需要避免引入任何新的义务相关信息。这样,推理步调就成了唯一的钻研变量。

为此,钻研者设计了以下钻研战略,以扩展不同 LLM 应用程序的推理步调。人们考虑成绩的方式通常有固定的模式,例如,一遍又一遍地重复成绩以获得更深入的理解、创建数学方程以减轻记忆负担、分析成绩中单词的含义以帮助理解主题、总结当前状态以简化对主题的描述。基于零样本 CoT 和 Auto-CoT 的启发,钻研者期望 CoT 的流程成为一种标准化的模式,并通过在 prompt 部分限制 CoT 头脑的方向来获得正确的结果。本文要领的核心是模拟人类头脑的流程,重塑头脑链。表 6 中给出了五种通用的 prompt 战略。

「think step by step」还不够,让模型「think more steps」更有用

单词头脑:这种战略是要求模型解释单词并重建知识库。通常情况下,一个单词有多种不同的含义,这样做的效果是让模型跳出条条框框,根据生成的解释重新解释成绩中的单词。这一流程不会引入新的信息。在 prompt 中,钻研者给出了模型正在考虑的单词的例子,模型会根据新成绩自动挑选单词进行这一流程。

成绩重载:反复阅读成绩,减少其他文本对头脑链的干扰。简而言之,让模型记住成绩。

重复状态:与反复阅读类似,在一长串推理之后加入一个当前状态的小结,目的是帮助模型简化记忆,减少其他文本对 CoT 的干扰。

自我验证:人类在回答成绩时会检查自己的答案是否正确。因此,在模型得到答案之前,钻研者添加了一个自我验证流程,根据一些基本信息来判断答案是否合理。

方程制备:对于数学成绩,制作公式可以帮助人类总结和简化记忆。对于一些需要假设未知数 x 的成绩,建立方程是一个必不可少的流程。钻研者模拟了这个流程,并让模型尝试在数学成绩中建立方程。

总体而言,本文的即时战略都在模型有所体现。表 1 展示的内容是其中一个例子,其他四种战略的示例可以在原论文中查看。

「think step by step」还不够,让模型「think more steps」更有用

尝试及结果

推理步调与准确性的关系

表 2 比较了使用 GPT-3.5-turbo-1106 在三类推理义务的八个数据集上的准确性。

「think step by step」还不够,让模型「think more steps」更有用

得益于钻研者能够将头脑链流程标准化,接下来就可以量化在 CoT 的基本流程中添加步调而对准确性的普及程度。本尝试的结果可以回答之前提出的成绩:推理步调与 CoT 功能之间的关系是什么?该尝试基于 GPT-3.5-turbo-1106 模型。钻研者发现,有效的 CoT 流程,例如在 CoT 流程中添加多达六个步调的额外头脑流程,会让大型语言模型推理本领都会得到普及,并且是在所有的数据集上都有体现。换句话说,钻研者发现准确性和 CoT 复杂性之间存在一定的线性关系。

「think step by step」还不够,让模型「think more steps」更有用

错误答案的作用

推理步调是作用 LLM 功能的唯一因素吗?钻研者做了以下尝试。将 prompt 中的一个步调更改为不正确的描述,看看它是否会作用头脑链。对于这个尝试,本文钻研者在所有 prompt 中添加一个错误。有关具体示例,请看表 3。

「think step by step」还不够,让模型「think more steps」更有用

对于算术类型的成绩,即使其中一个 prompt 结果出现偏差,对推理流程中头脑链的作用也是微乎其微的,因此钻研者认为在解决算术类型的成绩时,大语言模型对提醒中头脑模式链的学习要多于单一计算。对于类似硬币数据的逻辑成绩,prompt 结果中的一个偏差往往会带来整个头脑链的支离破碎。钻研者同样使用 GPT-3.5-turbo-1106 完成这项尝试,并根据之前尝试得出的每个数据集的最佳步数保证了功能。结果如图 4 所示。

「think step by step」还不够,让模型「think more steps」更有用

收缩推理步调

先前的尝试已经证明了添加推理步调可以普及 LLM 推理的准确性。那么在小样本成绩中收缩基础推理步调会损害 LLM 的功能吗?为此,钻研者进行了推理步调收缩尝试,并采用尝试设置中概述的技术,将推理流程浓缩成 Auto CoT 和 Few-Shot-CoT,减少推理步调数。结果如图 5 所示。

「think step by step」还不够,让模型「think more steps」更有用

结果显示,模型的功能显著下降,回归到与零样本要领基本相当的水平。这个结果进一步表明,添加 CoT 推理步调可以普及 CoT 功能,反之亦然。

不同规格模型的功能对比

钻研者还提出疑问,我们能否观察到缩放现象,即所需的推理步调与 LLM 的大小有关?钻研者钻研了各种模型(包括 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4)中使用的平均推理步调数。通过在 GSM8K 上的尝试计算出了每个模型达到峰值功能所需的平均推理步调。在 8 个数据集中,该数据集与 text-davinci-002、GPT-3.5-turbo-1106 和 GPT-4 的功能差异最大。可以看出,在初始功能最差的 text-davinci-002 模型中,本文提出的战略具有最高的提升效果。结果如图 6 所示。

「think step by step」还不够,让模型「think more steps」更有用

协同工作实例中成绩的作用

成绩对 LLM 推理本领的作用是什么?钻研者想探讨改变 CoT 的推理是否会作用 CoT 的功能。由于本文主要钻研推理步调对功能的作用,所以钻研者需要确认成绩本身对功能没有作用。因此,钻研者选择了数据集 MultiArith 和 GSM8K 和两种 CoT 要领(auto-CoT 和 few-shot-CoT)在 GPT-3.5-turbo-1106 中进行尝试。本文的尝试要领包括对这些数学数据集中的样本成绩进行有意的修改,例如改变表 4 中成绩的内容。

「think step by step」还不够,让模型「think more steps」更有用

值得注意的是,初步观察表明,这些对于成绩本身的修改对功能的作用是几个要素里最小的,如表 5 所示。

「think step by step」还不够,让模型「think more steps」更有用

这一初步发现表明,推理流程中步调的长度是大模型的推理本领最主要的作用因素,成绩本身的作用并不是最大的。 

更多详细内容,请阅读原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

大模型推理速度飙升3.6倍,「美杜莎」论文来了,贾扬清:最优雅加快推理方案之一

2024-1-24 14:54:00

工程

重塑3D生成核心实际:VAST、港大、清华用「零」训练数据生成了3D模型

2024-1-29 10:58:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索