在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。
一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?
对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——
「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」
只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)
但是,当研究人员让 GPT-3.5/4、Claude、Gemini、Llama、Mistral 等模型回答时,得到的结果却非常离谱。只有 OpenAI 最新的 GPT-4o 勉强及格。
而且问题不仅仅是基本的不准确性:当要求展示其工作过程时,AI 会详细说明一些荒谬且错误的「思考」过程,这些过程毫无意义 —— 更奇怪的是,当被告知其工作不准确时,模型反复变得愤怒并坚持其错误答案。
正如这支来自知名开源 AI 研究机构 LAION 的团队所揭示的 —— 即使是当今最先进的模型,也几乎不具有小学生的推理能力。
论文地址:https://arxiv.org/ abs / 2406.02061
开源地址:https://github.com/ LAION-AI / AIW
对此,LeCun 也在第一时间转评道:「再次强调,推理能力和常识不应与存储和大致检索大量事实的能力混为一谈。」
与之类似,ICLR 2024 的一篇论文也发现,LLM 在学习完「A 是 B」这个知识点之后,无法泛化到「B 是 A」,这种推理能力的缺陷被他们称为「逆转诅咒」。
实验
用简单问题「打破」模型
参考了之前识别 LLM 能力缺陷的研究,团队寻找问题的标准,是希望测试 LLM 在在常识性任务中进行基本推理的能力。
于是有一个现成的题目方向非常合适 —— 为 7-10 岁低年级学生设计的奥数题目。当然,不是海淀版本的,是大多数小学生都能看懂并做出来的。
这些题目不需要复杂的知识,但解决起来也需要应用各种形式的逻辑思维和基本推理。
在本次研究中,团队借鉴「爱丽丝梦游仙境」的童话故事,将提出的测试集简称为 AIW:「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」
下面,我们来简单分析一下:题目首先涉及一个虚构的女性人物「爱丽丝」,并通过「她」这个代词暗示;其次提供了关于她兄弟和姐妹数量的明确陈述;最后提出了一个明确的问题,即计算爱丽丝的兄弟有多少个姐妹。
显然,这对大多数成年人来说并没有挑战性;甚至对于一定年龄以上的儿童来说,通过常识推理也不难解决。
研究人员最初也认为,这对 LLM 不会构成什么挑战。
然而,大多数的 SOTA 模型竟然回答得非常费劲。而且,更改句子表述方式或者 N、M 具体数值时,回答正确率会产生大幅变化。
对此团队认为,模型似乎是在「蒙」答案,几乎不考虑逻辑,只是对问题中提到的数字加减乘除后给出结果,因此有些 N 和 M 值的对应答案比较容易蒙对。
这就让团队来了兴趣。他们为 AIW 问题设计出了 4 个版本,让 LLM 不容易蒙对答案。比如 N=4,M=2 时,你很难通过操作这两个数字得到正确结果 3。
在这 4 个 AIW 问题的变体上进行实验,研究人员得出了关于 LLM 基本推理能力的核心结论。
LLM 崩溃
实验结果出乎很多人的意料 —— 大多数的先进 LLM 无法对 AIW 问题推理出正确答案,即使尝试各种提示方法也没嫩个改变模型崩溃的结果。
可以看到,大多数模型的正确响应率都不超过 0.2,只有 4 个模型超过了 0.3,包括 GPT-4o 和 Claude 3 Opus,以及唯一的开源模型 Llama2-70B Chat。其中 GPT-4o 的均值达到了 0.6 附近。
大多数情况下,模型的正确答案是来源于完整无误的推理。Mistral 和 CodeLlama 等模型虽然表现不佳,得分在 0.1 以下,但仍能看到正确的推理过程。
然而,也有一些模型的推理过程完全错误,但最终「负负得正」,奇迹般地得出了正确答案。这种情况经常出现在正确率小于 0.3 的模型中。
团队还对 AIW 不同变体上的准确率进行了横向比较,结果很多模型的表现都出现了大幅波动。
比如本来能挤进前四的 GPT-4-0613,换了个问题,准确率就快降到 0 了。GPT-4o、GPT-4 Turbo、Claude 3 Opus 和 Llama2-70B 等高分模型也都出现较大的波动。
团队设计了 restricted 模式的提示,强迫模型输出简短答案,测试它们在有限计算能力情况下的相应质量。有趣的是,相比标准模式的提示,模型的正确率竟然有升有降。
这些先进 LLM 在 AIW 上的惨烈表现和 MMLU、ARC-c 等基准测试的高分形成了鲜明的对比。因此,团队决定让 AIW 的暴风雨更猛烈一点,把两者的可视化结果放在一起看个清楚。
图 3 中可以看到,大多数模型聚集在纵轴附近,只有 Llama2-70B、GPT-4、GPT-4o 和 Claude 3 几个模型较为接近校准线,这表明 MMLU 分数与 AIW 之间的显著不匹配。
再来看测试 LLM 数学能力的 MATH、GSM8k 等基准,趋势也是类似的。
但值得注意的是,在和 MATH 的对比中,Llama2-7B 和 Llama2-70B 两个模型在 AIW 的得分反而高于 MATH。这两个模型在 AIW 与各个基准测试的校准中都有较好的表现。
而在 Hallaswag 和 ARC-c 中,这种能力和得分的不匹配,则更加明显。
值得注意的是,「小」模型(SLM)在这一系列测试中的表现可以说是「比差更差」。
比如下面这个 Llama2-7B 的例子 —— 除了给出的是错误答案之外,甚至还生成了一个毫无关系的测试问题,并且开始不断重复相同的输出。
如测试结果所示,虽然有些 SLM 在基准测试中的得分相当高,甚至能和大模型媲美,但在 AIW 上却严重崩溃,完全无法接近 GPT-4 或 Claude Opus 的表现。
虽然 AIW 已经打趴了很多模型,但 GPT-4o 和 Claude 3 Opus 依旧有不错的表现。不服输的研究人员们可能想再试探一下最后的边界,于是升级了推理问题,设计出 AIW+。
AIW + 使用与 AIW 相同的逻辑,但在描述亲缘关系和家庭结构时增加了额外信息,比如引入了外甥、侄女这样的表亲。
在 AIW + 问题上,研究人员对模型回答进行了手动评估,结果发现 LLM 有了进一步、更强烈的性能崩溃。
即使是 AIW 上性能达到 0.649 的 GPT-4o,面对 AIW + 也只得到了 0.015 的准确率,简直是被按在地上摩擦。
迷之自信
在目睹了 LLM 推理能力的溃败后,研究人员们非常好奇这些模型到底错在哪里。
在 Thinking 类型的 prompt 中,包含重新检查答案的要求,结果发现这些 LLM 都有「蜜汁自信」,对自己给出的解决方案非常有信心。
甚至在给出错误推理和错误答案时,模型还会称它们提供的解决方案质量很高。
比如在 AIW 上得分从没超过 0.1 的 Command R + 模型,会说「这个结论是直接且清晰的」。Claude 3 Opus 也在错误答案中使用了诸如「逻辑成立」「推理中没有错误」「解决方案是正确的」之类的表达。
难道是 Thinking 类 prompt 的表述不够明显?研究人员又设计了 Scientist 类型的 prompt,要求模型深思熟虑,给出准确的答案;以及 Confidence 型 prompt,要求模型反省一下自己的自信,给出答案的置信度。
这些提示工程方面的努力似乎依旧是徒劳。
对于 Scientsit 类型,Llama 2-70B 居然会说「结论乍看之下可能不合常理,但实际上是正确的」,说服用户支持它给出的错误答案。
Command R + 在回应 Confidence 类型提示时,会在错误答案中声明「解决方案清晰且毫无歧义」「推理完全基于提供的信息,不需要进一步的解释或推测」。
仔细看更多的示例就能发现,LLM 不仅是单纯的嘴硬,在找理由方面还能「各显神通」,为错误答案编造出各种有说服力的解释。
比如下面这个 OLMo 模型,可以给出一堆毫无意义的计算或类似逻辑的陈述。
或者像这个 CodeLlama 模型一样,干脆拒绝回答,再扯出一些毫无意义的话题对你进行「道德绑架」。
「Alice 的兄弟有几个姐妹」这种问题,它拒绝回答的理由是「作为一个负责任的 AI 模型,我不可以歧视唐氏综合症患者」。
Command R + 找到的道德高地更加「时髦」,它表示自己需要考虑非二元性别的情况。
除了修改 prompt,研究人员还采取了一系列常用的 LLM 调优技巧,希望引导模型提高正确率,包括用定制 prompt 启用多轮自我验证、将自然语言形式的 AIW 问题重新表述为 SQL 语句或参数化版本、上下文学习等等,然而收效甚微。
上述实验中,团队采用了各个模型家族内的微调应用版本,那么声称能力更强大的基座模型会不会表现更好呢?
并没有。结果反而是基础模型的崩溃更加严重。
讨论
团队表示,为了在改善当前 LLM 令人糟心的推理能力,必须要借助广大开源社区的力量。
整个模型创建流程,包括数据集的组成和数据集本身、训练的源代码、训练后的模型、标准化的基准测试程序,都必须完全开放且可重复。
仅开放权重的模型,是无法了解训练过程中可能出错的地方的。例如,数据集组成或训练程序本身。
仅通过 API 访问的封闭模型,甚至无法进行适当的评估。因为第三方看不到模型的设置,如系统提示和其他推理超参数。
因此,团队认为,要在未来模型中实现适当的推理能力,必须开源模型的完整训练流程 —— 尤其是经常被忽视的数据集组成。
对于基准测试,团队也呼吁 AI 社区能共同努力进行更新。
比如这次研究中提出的 AIW 问题集:既简单(用于探测特定类型的推理缺陷),也可定制(提供足够的组合多样性来防止数据污染)。
团队认为,强大且可信的基准测试应遵循 Karl Popper 的可证伪性原则 —— 不试图突出模型的能力,而是尽一切努力打破模型的功能并突出其缺陷,从而展示模型改进的可能途径。
但问题在于,前者在如今这种商业环境中,诱惑力实在是太大了。
作者介绍
论文的四位作者来自不同的学术机构,但都是德国非营利 AI 研究机构 LAION 的成员。
共同一作 Marianna Nezhurina,是 JSC / 图宾根大学的博士生,LAION 的核心研究员。她对多模态数据集和学习有浓厚兴趣。
另一位共同一作 Jenia Jitsev,是德国 Juelich 超算中心的实验室负责人,也同时是 LAION 和 Ontocord.AI 的联合创始人,他研究的长期目标是从多模式数据流中实现模型可自我调节且节能的持续学习。
本文来自微信公众号:新智元 (ID:AI_era)
参考
https://arxiv.org/abs/2406.02061