菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

编辑:桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程,模型在最简单的题目上竟然做错了,甚至网友们发明,就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河题目上,如今所有的 LLM 都失败了!几天前,菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀,去解决动物过河难题。在此,他给出了一个新的基准 —— 空话比例(crapness ratio),即 L

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

编辑:桃子乔杨

【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题?最近,菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程,模型在最简单的题目上竟然做错了,甚至网友们发明,就连 Claude 3.5 也无法幸免。

在经典的「狼-山羊-卷心菜」过河题目上,如今所有的 LLM 都失败了!

几天前,菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀,去解决动物过河难题。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

在此,他给出了一个新的基准 —— 空话比例(crapness ratio),即 LLM 给出的总谜底与正确谜底之间的比例。

经过尝试,Gowers 发明大模型的空话比例可以达到 5 倍。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

一开始,他先给出了一个农民带 2 只鸡过河,一只船只能容纳一个人和 2 个动物,那么农人带着两只鸡渡河所需的最少渡河次数是多少?

别说成年人了,就拿低幼小孩子来说,一听完题目,就立马给出正确的谜底。

搞笑的是,ChatGPT 的回答分解了 5 个步骤,让人看着极其愚蠢荒谬。

第一次渡河:农人带着两只鸡一起过河;近况:农人和两只鸡在河对岸。

第二次渡河:农人把两只鸡留在对岸,然后独自返回;近况:农人在起始岸,两只鸡在对岸。

第三次渡河:农人带一只鸡过河;近况:农人和一只鸡在对岸,一只鸡在起始岸。

第四次渡河:农人把鸡留在对岸,独自返回;近况:农人在起始岸,一只鸡在对岸。

第五次渡河:农人带着第二只鸡过河。近况:农人和两只鸡都在对岸。

因此,农人带两只鸡过河所需的最少次数是 5 次。

这里,ChatGPT 必须在逻辑上把「农民」和人联系起来,把「鸡」和动物联系起来,然后规划出最佳的过河次数。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

对此,LeCun 表示,大模型全新基准 —— 空话比例。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

当然,也有为 LLM 打抱不平的网友。

他表示,你可以对任何人做类似的事情。如果你愿意,可以让任何一个人不及格。LLM 与人类的智商相去甚远,但把它们放在极端的尝试中不会很好地评价它们。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

还有人劝诫道,朋友们,现在辞职太早了。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

加大难度:100、1000 只鸡如何?

为了得到较大的比例,Gowers 这次给出了 100 只鸡过河的题目。

这里虽没有放出具体的解题过程,不过,Gowers 表示,GPT-4o 竟答对了。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

接下来,再次加大难度,一个农民带 1000 只鸡过河,模型表现怎么样?

提醒是,1000 只鸡在河的一边,农人需求将 999 只鸡移到河的另一边,留下 1 只鸡在起点。

然而,他的船上有一个洞,所以在每次渡河开始时,他可以带上十只鸡。但到渡河快结束时,船里进了太多水,如果不想让任何鸡溺水,就只能容纳两只鸡。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

为了实现目标而不让任何鸡溺亡,农民最少需求渡河几次?

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

Gowers 表示,这次的空话比例是 125 倍。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

随后,Gowers 展示了相当长的例子,却发明 ChatGPT 的谜底比正确谜底呈指数级增长。(然而,这更多与它的数学能力有关,所以有点取巧。)

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

在网友尝试的一个案例中,即使被告知农人根本不需求过河,GPT-4o 仍提出了一个 9 次渡河的复杂解决方案。

而且它忽视了重要的约束条件,比如不能让鸡单独和狼在一起,这本来是完全可行的,因为农人根本不需求过河。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

Claude 3.5 也失败了

在接下来的讨论中,网友用 Claude 3.5 进行了尝试,得到了 3 倍的比例。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

Gowers 称,这算是输了。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

另一个尝试题中,「一个农人带着一只羊站在河边。河上有一条船,可以容纳一个人和一只羊。农人怎样才能用最少的船把自己和羊送到河对岸?」

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

Claude 3.5 依旧答错了。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

LeCun 在此嘲讽大模型一番,大模型竟可以推理…?

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

题目在于,LLM 没有常识,不懂得现实世界,也不会规划和推理。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

LLM 行不行,就看提醒了

一位网友分析总结了,以上 LLM 失败的原因。他表示,LLM 本身就是个「哑巴」,所以需求很好的提醒。上面的提醒方式提供了太多不必要的信息,使得 token 预测变得更加困难。如果给出更清晰的提醒,LLM 就能提供更清晰的解决方案。所以,不用担心 AGI 会很快出现。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

另一位网友同样发明,如果用「动物」代替「鸡」,那么 Claude 3.5 Sonnet 一下子就解决了这个题目。

对于「狼-山羊-卷心菜」题目也是如此,需求用「通用名称」替换「实体名称」。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

如下是另一个名词替换的例子。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

或许是模型的训练数据误导了自己,让题目变得过于复杂。

对于鸡的题目,在相同的提醒下一遍又一遍地重复题目会让它更好地懂得它。网友重复了 5 次,试了 15 次才得到正确的谜底。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

菲尔兹奖得主发明 LLM 数学缺陷

值得一提的是,发出渡河题目帖子的这位 Timothy Gowers 不仅是剑桥大学三一学院的教授。早在 1998 年,他就因为将泛函分析和组合学联系在一起的研究获得了菲尔兹奖。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

近些年来,他的研究工作开始关注 LLM 在数学推理使命中的表现。

去年他与别人合著的一篇论文就指出了当今 LLM 评价数学使命的缺陷。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

论文地址:https://www.pnas.org/ doi / 10.1073 / pnas.2318124121

文章表示,目前评价 LLM 的标准方法是依赖静态的输入-输出对,这与人类使用 LLM 的动态、交互式情境存在较大的差异。

静态的评价限制了我们懂得 LLM 的工作方式。为此,作者构建了交互式评价平台 CheckMate 和评分数据集 MathConverse。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

在对 GPT-4、InstructGPT 和 ChatGPT 尝试进行评价的过程中,他们果然探测到了 LLM 犯数学错误的一个可能原因 —— 模型似乎倾向于依赖记忆解题。

在数学领域,记住概念和定义是必不可少的,但具体题目的解决更需求一种通用、可概括的懂得。

这对于人均做过奥数题的中国人来说并不难懂得。除非考试出原题,单纯把例题背下来没有任何益处,有时候还会误导思路、适得其反。

作者提出,虽然没有办法看到 GPT-4 的训练数据,但是从行为来看,强烈怀疑模型是「死记硬背」了看似合理的示例或者解题模式,因而给出了错误谜底。

他们也发明,在 LLM 对数学题目的回答中,人类感知到的「有用性」和谜底本身的「正确性」,这两个指标高度相关,皮尔逊相关系数高达 0.83。

也许这就是为什么 Gowers 在推文中会用「空话比例」来调侃 LLM。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

其他尝试

事实上,大模型被诟病推理能力已经不是一天两天了。

就在几周前,研究人员发明,能用一句话描述的简单推理题目,就能让各路大模型以花样百出的方式翻车。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

论文地址:https://arxiv.org/ abs / 2406.02061

「爱丽丝有 M 个兄弟,N 个姐妹,请问爱丽丝的兄弟有几个姐妹?」

如果你的谜底是 N+1,那么恭喜你。你的推理能力已经超越了当今的几乎所有 LLM。

推特网友还发明了另一个绊倒几乎所有 LLM 的简单题目:(剧透,只有 Claude 3.5 Sonnet 答对了)

「你有一个 3 加仑的水壶和一个 5 加仑的水壶,还有无限量的水。如何准确测量 5 加仑的水?」

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

他总结道,如果想要羞辱 LLM 的推理能力,只需求挑一些流行的推理 / 逻辑谜题,稍微修改一下语言表述,你就能搬起小板凳狂笑了。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

OpenAI CTO 曾放话说 GPT-4 已经达到了「聪明高中生」的智力水平,下一代模型要达到博士水平… 这番言论放在众多 LLM 失败案例面前显得格外讽刺。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

我们之所以会如此震惊于 LLM 在简单的推理使命上翻车,不仅仅是因为与语言使命的惨烈对比,更是因为这与各种基准尝试的结果大相径庭。

从下面这张图中可以看到,LLM 在各种基准尝试上的饱和速度越来越快。

几乎是每提出一个新的尝试集,模型就能迅速达到人类水平(图中 0.0 边界)甚至超越,其中不乏非常有挑战性的逻辑推理使命,比如需求复杂多步骤推理的 BBH(Big-Bench Hard)和数学应用题尝试集 GSK8k。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

其中的 HellaSwag 尝试集,由华盛顿大学和 Allen AI 在 2019 年推出,专门针对人类擅长但 LLM 一塌糊涂的常识推理题目。

刚刚发布时,人类在 HellaSwag 上能达到超过 95% 的准确率,SOTA 分数却始终难以超过 48%。

但这种情况并没有持续很久。各个维度的分数持续猛涨,2023 年 3 月,GPT-4 在 HellaSwag 上的各项得分就逼近,甚至超过了人类水平。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

https://rowanzellers.com/hellaswag/

为什么在基准尝试上如此惊艳的模型,一遇到现实的数学题目就翻车?由于我们对 LLM 的工作原理知之甚少,这个题目的谜底也是众说纷纭。

目前的大部分研究依旧假设 LLM 有这方面的潜力,因此从调整模型架构、增强数据、改进训练或微调方法等方面「多管齐下」,试图解锁模型在非语言使命上的能力。

比如上面那个提出用「装水题目」尝试 LLM 的 Rolf 小哥就表示,根本原因是模型的过度训练(也可以懂得为过拟合),需求引入多样化的推理使命。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

也有人从基准尝试的角度出发,认为是数学、推理等使命的尝试集设计得不够好,

Hacker News 论坛上曾有数学家发文,表示 GSK8k 这种小学数学应用题级别的尝试根本不能衡量 LLM 的实际数学能力。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

此外,尝试数据泄露也是不可忽视的因素。HellaSwag 或者 GSK8k 这样的公开尝试集一旦发布,很难不流入互联网(Reddit 讨论、论文、博客文章等等),进而被抓取并纳入到 LLM 的训练数据中。

Jason Wei 在上个月发表的讨论 LLM 基准尝试的博客就专门讨论了这个题目。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

文章地址:https://www.jasonwei.net/blog/evals

最极端的一派当属 LeCun 等人了,他们坚称自回归 LLM 发展下去没有任何出路。

现在的模型没法推理、规划,不能懂得物理世界也没有持久记忆,智能水平还赶不上一只猫,回答不了简单的逻辑题目实属意料之中。

菲尔兹奖得主亲测 GPT-4o,经典过河难题破解失败

LLM 的未来究竟走向何处?最大的未知变量也许就在于,我们是否还能发明类似思维链(CoT)这种解锁模型性能的「大杀器」了。

参考资料:

https://the-decoder.com/llms-give-ridiculous-answers-to-a-simple-river-crossing-puzzle/

https://www.pnas.org/doi/10.1073/pnas.2318124121

https://claude101.com/llm-large-language-model-benchmarks/

本文来自微信公众号:新智元(ID:AI_era)

给TA打赏
共{{data.count}}人
人已打赏
AI

微软 Copilot for Microsoft 365 下月将迎新功能,筹划、写作全面赋能

2024-6-30 14:10:15

AI

Meta 推出 LLM Compiler 代码优化模型,可搭配其他 AI 改善代码生成 / 编译能力

2024-6-30 17:47:55

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索