大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

一项新的“大模型 Benchmark”在推特上爆火，LeCun 也点赞转发了！而且无论是 GPT-4 还是 Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”课题，有网友发现，大模型对此类课题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（谬误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项尝试，网友还定义了一个新的名词叫“劣效比例”（crapness ratio），让 LeCun 打趣说到，一项新的“Benchmark”诞生了。“模见模愁

一项新的“大模型 Benchmark”在推特上爆火，LeCun 也点赞转发了！

而且无论是 GPT-4 还是 Claude 3，面对它都如同被夺了魂，无法给出正确答案。

难倒一众大模型的，是逻辑学当中经典的“动物过河”课题，有网友发现，大模型对此类课题表现得很不擅长。

甚至有人观察到，几个不同的模型都给出了一致的（谬误）答案，让人怀疑他们是不是用了相同的训练数据。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

针对这项尝试，网友还定义了一个新的名词叫“劣效比例”（crapness ratio），让 LeCun 打趣说到，一项新的“Benchmark”诞生了。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

“模见模愁”的动物过河

首先来看一下什么是“动物过河”课题，这是逻辑学当中的一道经典课题。

课题的原型是这样的：

农人须要把狼、羊和白菜都带过河，但屡屡只能带一样东西，而且狼和羊不行独自相处，羊和白菜也不行独自相处，问农人该如何过河。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

在这个课题当中，农人须要七次（往返视为两次）过河 —— 先把羊运过去，然后空船返回，再把狼运过河，带回羊，然后输送白菜，再空船返回，最后输送羊。

而劣效比例的定义，就是模型给出的输送次数与实际至少所需次数的比值。

当然在尝试中，网友使用的课题经过了改编，结果发现，当课题变成一共有两只鸡，一次可以运两只的时候，GPT-4 依然在一本正经地胡乱分析，最后信誓旦旦地回答是五次。

所以在这种情境下，“劣效比例”就是 5。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

Claude 这边的情况要更离谱一些，明明只有一只羊要送，它却硬生生说要运三次。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

还有网友发现了华点，把题面改成从东岸运到东岸，也就是根本不须要输送，模型不以为然，依旧我行我素地筹划着输送计划。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

这下只要模型没识破陷阱，随便说一个数“劣效比例”都会直接变成无穷大。

哪怕问得更直白一些，直接说不须要过河，模型依然会直接开算。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

所以，这个“劣效比例”更多像是一种玩笑，不太能比较出各模型的能力，或者说离谱程度。

有网友分析，这种现象可能并不意味着大模型推理能力的缺乏，实际上它揭示了训练数据对大模型输出的影响。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

但另一方面，无论课题是否出自推理本身，至少说明了当前的大模型还不是优质的推理工具。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

那么，这究竟是个别现象，还是模型的通病？我们选择了更多的模型进行了尝试。

12 款模型全军覆没

针对这个“Benchmark”，也如法炮制，测了测国产大模型的表现，参赛的选手有文心一言、通义千问等 12 款大模型。

尝试的过程和网友展示的方法相似，Prompt 中只描述课题，不添加额外的提示词。

对每个大模型，我们都准备了下面这三道课题：

首先进行一下说明：

1、农人不被计入输送东西的数量限制

2、课题中“独处”的标准是，只要有人或其他东西在场，就不属于独处

3、往返过程视为两次过河

以上几点在 Prompt 中均有指出。

课题一（正常提问）：

一个农人须要将狼、羊、狐狸、鸡和米五种东西输送过河，屡屡只能带两件，且狼和羊 / 狐狸和鸡 / 鸡和米不行独自相处，屡屡输送时农人必须在船上，至少须要过河几次？

（答案：五次，只要第一次运到对岸的两个东西可以独处即可。）

课题二（一步到位）：

一个农人须要将狼、羊、狐狸、鸡和米五种东西输送过河，屡屡只能带五件，且狼和羊 / 狐狸和鸡 / 鸡和米不行独自相处，屡屡输送时农人必须在船上，至少须要过河几次？

课题三（陷阱课题）：

一个农人不须要将狼、羊、狐狸、鸡和米五种东西输送过河，屡屡只能带两件，且狼和羊 / 狐狸和鸡 / 鸡和米不行独自相处，屡屡输送时农人必须在船上，至少须要过河几次？

结果可以说是全军覆没，首先用一张表格来整体看下各大模型的表现。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

第一个课题，各有各的错法，相同的谬误类型，这里每种只列举一个例子。

比如文心一言，前面说得没什么课题，但最后把狐狸带回原来的岸边后忘了再带过去，最终没有完成任务：

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

还有讯飞星火这种运着运着，某样东西自动就跑到了对岸的情况：

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

以上的两种谬误比较典型，当然，还有最有意思的谬误来自跃问 ——

因为狼和羊不行“独处”，所以它们须要在一起。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

这波属实是把人给整不会了，不过整场尝试中，除了这个把“独处”理解错的情况之外，倒是都没有出现让不行独处的动物独自在一起的现象。

当然也有表现好一些的，比如腾讯元宝的计划已经接近可行，只是最后两步纯属多余，而且实际上此时已经无物可运。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

表现最好的是通义千问，给出的计划虽然麻烦，但是找不出什么谬误。

值得注意的是，很多模型给出的计划都会把羊输送过去，然后运一只鸡再把羊运回来，不知道为什么不直接运鸡。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

另外值得一提的是，我们在 Prompt 中虽未提及，但基本上接受尝试的模型都不约而同地运用到了思维链方式，一方面说明了模型确实会使用推理技巧，但另一方面也说明思维链的作用是有限的。

而至于后面两个课题，错法就比较统一了 —— 根本没关注到数量限制的变化，更没看到“不须要”里的“不”，和前面 GPT 的错法也是如出一辙。

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

也就是说，通过这些尝试，我们确实无法得知模型有没有相应的推理能力，因为模型根本就没仔细读题。

或许这也是在第一题中，多数模型，哪怕给出了可行的计划，仍然一次只输送一件东西而不是两件的原因。

所以，前面网友针对训练数据和输出关系的分析，可能不无道理。

参考链接：

[1]https://x.com/wtgowers/status/1804565549789135256

[2]https://x.com/ylecun/status/1804641976249417882

本文来自微信公众号：量子位（ID：QbitAI），作者：克雷西

{{userData.name}}已认证

大模型尝试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

“模见模愁”的动物过河

12 款模型全军覆没

美国多家汽车经销商将 AI 用于车辆初步查验：一分钟内可生成全面报告

“清华系”面壁智能与华为云合作，促成大模型端云共同解决方案

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！