谷歌:LLM找不到推理谬误,但能纠正它

LLM 找不到推理谬误,但却能纠正谬误!今年,大型语言模型(LLM)成为 AI 领域关注的焦点。LLM 在各种自然语言处理(NLP)义务上取得了显著的进展,在推理方面的突破尤其令人惊艳。但在复杂的推理义务上,LLM 的表现仍然欠佳。那么,LLM 能否判断出自己的推理存在谬误?最近,剑桥大学和 Google Research 联合开展的一项研究发现:LLM 找不到推理谬误,但却能利用该研究提出的追溯(backtracking)法子纠正谬误。论文地址::,有人提出异议,比如在 Hacker News 上,有人评论这篇论

LLM 找不到推理谬误,但却能纠正谬误!

今年,大型语言模型(LLM)成为 AI 领域关注的焦点。LLM 在各种自然语言处理(NLP)义务上取得了显著的进展,在推理方面的突破尤其令人惊艳。但在复杂的推理义务上,LLM 的表现仍然欠佳。

那么,LLM 能否判断出自己的推理存在谬误?最近,剑桥大学和 Google Research 联合开展的一项研究发现:LLM 找不到推理谬误,但却能利用该研究提出的追溯(backtracking)法子纠正谬误。

谷歌:LLM找不到推理谬误,但能纠正它

论文地址:https://arxiv.org/pdf/2311.08516.pdf

数据集地址:https://github.com/WHGTyen/BIG-Bench-Mistake

这篇论文引起了一些争论,有人提出异议,比如在 Hacker News 上,有人评论这篇论文的标题言过其实,有些标题党。也有人批评说其中提出的校对逻辑谬误的法子基于模式匹配,而非采用逻辑法子,这种法子其实容易失败。

Huang 等人在论文《Large language models cannot self-correct reasoning yet》中指出:自我校对或许是能有效地晋升模型输入的风格和质量,但鲜有证据表明 LLM 有能力在没有外部反馈的情况下识别和纠正自身的推理和逻辑谬误。比如 Reflexion 和 RCI 都利用了基本真值的纠正结果作为停止自我校对循环的信号。

剑桥大学和 Google Research 的研究团队提出了一种新思路:不再把自我校对看作一个单一过程,而是分成谬误发现和输入校对两个过程:

谬误发现是一种基础推理技能,已经在哲学、心理学和数学领域得到了广泛的研究和应用,并催生了批判性思维、逻辑和数学谬误等概念。我们可以合理地认为发现谬误的能力也应该是 对 LLM 的一项重要要求。但是,本文结果表明:当前最佳的 LLM 目前还无法可靠地发现谬误。

输入校对涉及部分或完全修改之前生成的输入。自我校对是指由生成输入的同一模型来完成校对。尽管 LLM 没有发现谬误的能力,但本文表明:如果能提供有关谬误的信息(如通过一个小型的监督式处分模型),LLM 可以利用追溯法子校对输入。

本文的主要贡献包括:

利用思维链 prompt 设想法子,任何义务都可以变成谬误发现义务。研究者为此收集并发布了一个 CoT 类型的轨迹信息数据集 BIG-Bench Mistake,该数据集由 PaLM 生成,并标注了第一个逻辑谬误的地位。研究者表示,BIG-Bench Mistake 在它的同类数据集中,是首个不局限于数学问题的数据集。

为了测试当前最佳 LLM 的推理能力,研究者基于新数据集对它们进行了基准评测。结果发现,当前 SOTA LLM 也难以发现谬误,即便是客观的明确的谬误。他们猜测:LLM 无法发现谬误是 LLM 无法自我校对推理谬误的主要原因,但这方面还有待进一步研究。

本文提出利用追溯法子来校对输入,利用谬误的地位信息来晋升在原始义务上的性能。研究表明这种法子可以校对原本谬误的输入,同时对原本正确的输入影响极小。

本文将追溯法子解释成了「言语强化学习」的一种形式,从而可实现对 CoT 输入的迭代式晋升,而无需任何权重更新。研究者提出,可以通过一个经过训练的分类器作为处分模型来利用追溯,他们也通过实验证明了在不同处分模型准确度下追溯的有效性。

BIG-Bench Mistake数据集

BIG-Bench 由 2186 个 CoT 风格的轨迹信息集合组成。每个轨迹由 PaLM 2-L-Unicorn 生成,并标注了第一个逻辑谬误的地位。表 1 展示了一个轨迹示例,其中谬误位于第 4 步。

谷歌:LLM找不到推理谬误,但能纠正它

这些轨迹来自 BIG-Bench 数据集中的 5 个义务:词排序、跟踪经过混洗的对象、逻辑推演、多步算术和 Dyck 语言。

他们利用 CoT prompt 设想法来调用 PaLM 2,使其解答每个义务的问题。为了将 CoT 轨迹分成明确的法子,他们利用了论文《React: Synergizing reasoning and acting in language  models》中提出的法子,分开生成每一步,并利用了换行符作为停止 token。

在该数据集中,生成所有轨迹时,temperature = 0。答案的正确性由精确匹配决定。

基准测试结果 

表 4 报告了 GPT-4-Turbo、GPT-4 和 GPT-3.5-Turbo 在新的谬误发现数据集上的准确度。

谷歌:LLM找不到推理谬误,但能纠正它

对于每个问题,可能的答案有两种情况:要么没有谬误,要么就有谬误。如有谬误,则数值 N 则会指示第一个谬误出现的法子。

所有模型都被输入了同样的 3 个 prompt。他们利用了三种不同的 prompt 设想法子:

直接的轨迹层面的 prompt 设想 

直接的法子层面的 prompt 设想 

CoT 法子层面的 prompt 设想

相关讨论

研究结果表明,这三个模型都难以应对这个新的谬误发现数据集。GPT 的表现最好,但其在直接的法子层面的 prompt 设想上也只能达到 52.87 的总体准确度。

这说明当前最佳的 LLM 难以发现谬误,即使是在最简单和明确的案例中。相较之下,人类在没有特定专业知识时也能发现谬误,并且具有很高的一致性。

研究者猜测:LLM 无法发现谬误是 LLM 无法自我校对推理谬误的主要原因。

prompt 设想法子的比较

研究者发现,从直接轨迹层面的法子到法子层面的法子再到 CoT 法子,无谬误的轨迹准确度显著下降。图 1 展示了这种权衡。

谷歌:LLM找不到推理谬误,但能纠正它

研究者猜测其原因是模型生成的输入的数量。这三种法子涉及到生成越来越复杂的输入:直接的轨迹层面的 prompt 设想法子需要单个 token,直接的法子层面的 prompt 设想法子每步需要一个 token,CoT 法子层面的 prompt 设想每步需要多个句子。如果每次生成调用都有一定的概率识别出谬误,那么对每条轨迹的调用越多,模型识别出至少一个谬误的可能性就越大。

将谬误地位作为正确性代理的少样本 prompt 设想

研究者探究了这些 prompt 设想法子能否可靠地决定一个轨迹的正确性,而不是谬误地位。

他们计算了平均 F1 分数,依据为模型能否预测轨迹中是否存在谬误。如果存在谬误,则假设模型预测的是该轨迹是 incorrect_ans。否则就假设模型预测的是该轨迹是 correct_ans。

利用 correct_ans 和 incorrect_ans 作为正例标签,并根据每个标签的出现次数进行加权,研究者计算了平均 F1 分数,结果见表 5。

谷歌:LLM找不到推理谬误,但能纠正它

这个加权 F1 分数表明,对于确定最终答案的正确性而言,通过 prompt 寻找谬误是一个很糟糕的策略。

追溯

Huang 等人指出 LLM 无法在没有外部反馈的情况下自我校对逻辑谬误。但是,在许多真实世界应用中,通常没有可用的外部反馈。

研究者在这项研究中采用了一种替代方案:用一个在少量数据上训练的轻量级分类器替代外部反馈。与传统强化学习中的处分模型类似,这个分类器可以检测 CoT 轨迹中的任何逻辑谬误,然后再将其反馈给生成器模型以晋升输入。如果想要最大化晋升,可以进行多次迭代。

研究者提出了一种简单的追溯法子,可以根据逻辑谬误的地位来晋升模型的输入:

模型首先生成一个初始的 CoT 轨迹。在实验中,设置 temperature = 0。

然后利用处分模型确定轨迹中谬误的地位。

如果没有谬误,就转向下一个轨迹。如果有谬误,则再次向模型输入 prompt 以执行相同的法子,但这一次 temperature = 1,生成 8 个输入。这里会利用同样的 prompt 以及包含谬误法子之前所有法子的部分轨迹。

在这 8 个输入中,过滤掉与之前的谬误一样的选项。再从剩下的输入中选择对数概率最高的一个。

最后,用新的重新生成的法子替换之前法子,再重新设置 temperature = 0,继续生成该轨迹的剩余法子。

相比于之前的自我校对法子,这种追溯法子有诸多优势:

新的追溯法子不需要对答案有预先的知识。相反,它依赖于有关逻辑谬误的信息(比如来自训练处分模型的信息),这可以利用处分模型一步步地确定。逻辑谬误可能出现在 correct_ans 轨迹中,也可能不出现在 incorrect_ans 轨迹中。 

追溯法子不依赖于任何特定的 prompt 文本或措辞,从而可减少相关的偏好。 

相比于需要重新生成整个轨迹的法子,追溯法子可以通过复用已知逻辑正确的法子来降低计算成本。

追溯法子可直接晋升中间法子的质量,这可能对需要正确法子的场景来说很有用(比如生成数学问题的解),同时还能晋升可解释性。

研究者基于 BIG-Bench Mistake 数据集实验了追溯法子能否帮助 LLM 校对逻辑谬误。结果见表 6。

谷歌:LLM找不到推理谬误,但能纠正它

∆accuracy✓ 是指在原始答案是 correct_ans 时,在轨迹集合上的 accuracy_ans 之差。

∆accuracy✗ 则是对于 incorrect_ans 轨迹的结果。

这些分数结果表明:校对 incorrect_ans 轨迹的收益大于改变原本正确的答案所造成的损失。此外,尽管随机基准也获得了晋升,但它们的晋升显著小于利用真正谬误地位时的晋升。注意,在随机基准中,涉及法子更少的义务更可能获得性能晋升,因为这样更可能找到真正谬误的地位。

为了探索在没有好的标签时,需要哪种准确度等级的处分模型,他们实验了通过模拟的处分模型利用追溯;这种模拟的处分模型的设想目标是产生不同准确度等级的标签。他们利用 accuracy_RM 表示模拟处分模型在指定谬误地位的准确度。

当给定处分模型的 accuracy_RM 为 X% 时,便在 X% 的时间利用来自 BIG-Bench Mistake 的谬误地位。对于剩余的 (100 − X)%,就随机采样一个谬误地位。为了模拟典型分类器的行为,会按照与数据集分布相匹配的方式来采样谬误地位。研究者也想办法确保了采样的谬误地位与正确地位不匹配。结果见图 2。

谷歌:LLM找不到推理谬误,但能纠正它

可以看到 ∆accuracy✓ 的损失在 65% 时开始趋于稳定。事实上,对于大多数义务,在 accuracy_RM 大约为 60-70% 时,∆accuracy✓ 就已经大于 ∆accuracy✗ 了。这表明尽管更高的准确度能得到更好的结果,但即便没有黄金标准的谬误地位标签,追溯也依然有效。

给TA打赏
共{{data.count}}人
人已打赏
理论

搜集规模、训练进修速度提升,清华团队在大规模光电智能估计方向取得进展

2023-11-27 11:56:00

理论

BAAI、北大&港中文团队提出 SegVol:通用且可交互的医学体素联系模型

2023-11-28 14:20:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索