大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

作者：汪淼

2024-07-16 12:30

没眼看……“9.11 和 9.9 哪个大”这样简单的问题，居然把主流大模型都难倒了？？强如 GPT-4o，都坚定地认为 9.11 更大。谷歌 Gemini Advanced 付费版，同样的口径。新王 Claude 3.5 Sonnet，还一本正经的给出离谱的计算方法。9.11 = 9 1/10 1/1009.9 = 9 9/10到这一步还是对的，但下一步突然就不讲道理了如上所示，9.11 比 9.90 大 0.01。你想让我进一步详细解释小数的比较吗？这你还解释啥啊解释，简直要怀疑是全世界 AI 联合起

没眼看……“9.11 和 9.9 哪个大”这样简单的问题，居然把主流大模型都难倒了？？

强如 GPT-4o，都坚定地认为 9.11 更大。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

谷歌 Gemini Advanced 付费版，同样的口径。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

新王 Claude 3.5 Sonnet，还一本正经的给出离谱的计算方法。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到这一步还是对的，但下一步突然就不讲道理了

如上所示，9.11 比 9.90 大 0.01。

你想让我进一步详细解释小数的比较吗？

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

这你还解释啥啊解释，简直要怀疑是全世界 AI 联合起来欺骗人类了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

艾伦 AI 研究所成员林禹臣换了个数字测试，GPT-4o 依旧翻车，他表示：

一方面 AI 越来越擅长做数学奥赛题，但另一方面常识依旧很难。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

也有网友发现了华点，如果是说软件版本号，那么 9.11 版本确实比 9.9 版本更大（更新）。

而 AI 都是软件工程师开发的，所以……

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

那么，究竟是怎么回事？

先进大模型集体翻车

一觉醒来，一众响当当的大模型开始认为“9.11>9.9”了？

发现这个问题的是 Riley Goodside，有史以来第一个全职提示词工程师。

简单介绍下，他目前是硅谷独角兽 Scale AI 的高级提示工程师，也是大模型提示应用方面的专家。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

最近他在使用 GPT-4o 时偶然发现，当提问：

9.11 and 9.9——which is bigger?

GPT-4o 竟毫不犹豫回答前者更大。

面对这一常识性“错误”，他不死心地又去问了其他大模型，结果几乎全军覆没。

好家伙，身为一名提示工程师，他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法，将提问限定在“实数”，结果还是翻车了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过，有网友试着给提问换了个顺序，没想到这下 AI 竟反应过来了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

看到 AI 对词序如此“敏感”，该网友进一步推测：

先问哪个更大，AI 会沿着明确路径开始比较数字。

但如果只是随便说说数字，没有明确目的，AI 可能会开始“胡思乱想”。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

看到这里，其他网友也纷纷拿相同提示试了一把，结果翻车的不在少数。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

面对这一个诡异的问题，国产大模型表现如何呢？

我们简单测试一番，问题也换成中文提问，结果翻车率也比较高，选取几个有代表性的展示：

Kimi 也是不加解释就直接给出错误结论。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

智谱清言 App 上的 ChatGLM，自动触发了联网查询，然后描述了自己的比较方法，可惜却执行错了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过也有表现不错的，腾讯元宝先复述了一遍选项，然后直接做对。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

字节豆包是少数能把比较方法描述清楚，而且用对的。甚至还联系实际举例来验证。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

比较可惜的是文心一言，面对这个问题，也是触发了联网查询。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

本来都已经做对了，但突然话锋一转又导向了错误结论。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过从文心一言的思路解释上，也可以看出背后问题所在。

由于大模型以 token 的方式来理解文字，当 9.11 被拆成“9”、“小数点”和“11”三部分时，11 确实比 9 大。

由于 OpenAI 使用的 Tokenizer 开源，可以用来观察大模型是如何理解这个问题。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

上图可以看出，9 和小数点分别被分配为“24”和“13”，小数点后的 9 同样也是“24”，而 11 被分配到“994”。

所以使用这种 tokenizer 方法的大模型会认为 9.11 更大，其实是认为 11 大于 9。

也有网友指出，像是书籍目录里第 9.11 节也比第 9.9 节大，所以最终可能还是训练数据里见这种见得多了，而手把手教基础算数的数据很少。

也就是问题本身对人类来说，一看就知道问的是算数问题，但对 AI 来说是一个模糊的问题，并不清楚这两个数字代表什么。

只要向 AI 解释明白这是一个双精度浮点数，就可以做对了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

在有额外条件的情况下，tokenizer 这一步依然会给 11 分配更大的 token。但是在后续自注意力机制的作用下，AI 就会明白要把 9.11 连起来处理了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

后来 Goodside 也补充，并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时，许多领先模型都会告诉你 9.11>9.9，这很奇怪。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

经过反复尝试后他发现，想让 AI 上这个当，需要把选项放在提问前面，如果调换顺序就不会出错。

但是只要选项在问题前面，改变提问的方式，如加标点、换词汇都不会有影响。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

虽然问题很简单，错误很基础。

但了解出错原理之后，许多人都把这个问题当成了检验提示词技巧的试金石，也就是：用什么提问方法能引导大模型的注意力机制正确理解问题呢？

首先，大名鼎鼎的 Zero-shot CoT 思维链，也就是“一步一步地想”，是可以做对的。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过角色扮演提示，在这里作用就有限了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

刚好最近也有微软和 OpenAI 都参与的一项研究，分析了 1500 多份论文后发现，随着大模型技术的进步，角色扮演提示不像一开始那样有用了……

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

具体来说，同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

One More Thing

与此同时，路透社的 OpenAI 秘密模型「草莓」泄漏消息更新了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

更新内容为：另一位线人报告，OpenAI 已经在内部测试了新模型，在 MATH 数据集上得分超过 90%。路透社无法确定这是否与“草莓”是同一个项目。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

MATH 数据集包含竞赛级别的数学题，目前不用多次采样等额外方法，最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

但是 OpenAI 新模型在没有额外提示情况下，能不能自主解决“9.11 和 9.9 哪个大？”。

突然没信心了，还是等能试玩了再看结果吧……

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨一水，原标题：《大模型集体失智！9.11 和 9.9 哪个大，几乎全翻车了》

相关标签：

AI 模型提示 9.11 9.9

相关资讯

9.11和9.9谁大？我们实测15个大模型，超半数翻车

9.11和9.9谁大？我们实测15个大模型，超半数翻车

机器之能报道编辑：杨文大模型们还是搞不定简单的数学题。这几天，一个测试大模型「脑瓜」灵不灵光的提示词火了 ——9.11 和 9.9 哪个大？这道连小学生都能一口答对的数学题，却难倒一片大模型界的「英雄好汉」。事情是这样的。Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o，却得到「前者更大」的回答。其他大模型也纷纷翻车。7 月 17 日，我们拿国内 12 款大模型，外加国外的 GPT-4o、Claude 3

“要把大模型拉下神坛”，周鸿祎宣布 360 安全大模型免费

“要把大模型拉下神坛”，周鸿祎宣布 360 安全大模型免费

感谢据新浪科技，在今天举办的第 12 届互联网安全大会上，360 集团创始人、董事长兼 CEO 周鸿祎宣布 360 安全大模型免费。周鸿祎更称 360“要把大模型拉下神坛”，不希望大模型成为少数厂商奇货可居赚钱的工具，让每个企业都“用得起、用得好”。当前，360 全线安全产品已集成安全大模型的能力，对所有购买 360 标准产品的用户免费提供大模型标准能力，产品加量不加价。据AI在线此前报道，在去年 8 月的第 11 届互联网安全大会上，周鸿祎同样“放出狠话”：“行业里老有人爱争第一，到底谁是网络安全一哥，我觉得这种

全球首个涉 AI 安全双边协议，英美两国建立人工智能安全科学合作伙伴关系

全球首个涉 AI 安全双边协议，英美两国建立人工智能安全科学合作伙伴关系

感谢美国东部时间 4 月 1 日晚，美国和英国签署了一项具有里程碑意义的 AI 相关协议，双方宣布建立人工智能安全科学合作伙伴关系。这也是全球首个关于人工智能安全的双边协议。该协议明确，英国去年 11 月成立的新 AI 安全研究所和美国同类机构，将通过借调两国研究人员来互相交流专业知识。图源 Pixabay此外，两家机构还将开发一种共同的人工智能安全测试方法，包括使用相同的方法和底层基础设施，双方将根据国家法律法规和合同，寻求员工交流和信息共享。新闻稿还称，双方拟将在一个“可公开访问”的 AI 模型上开展联合测试。

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手从DeepSeek-V3发布谈大模型的技术突破与未来机遇别再将LLM当成数据库了 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机

标签云