大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

应用
7月16日
编辑

汪淼

没眼看……“9.11 和 9.9 哪个大”这样简单的问题，居然把主流大模型都难倒了？？强如 GPT-4o，都坚定地认为 9.11 更大。谷歌 Gemini Advanced 付费版，同样的口径。新王 Claude 3.5 Sonnet，还一本正经的给出离谱的计算方法。9.11 = 9 1/10 1/1009.9 = 9 9/10到这一步还是对的，但下一步突然就不讲道理了如上所示，9.11 比 9.90 大 0.01。你想让我进一步详细解释小数的比较吗？这你还解释啥啊解释，简直要怀疑是全世界 AI 联合起

没眼看……“9.11 和 9.9 哪个大”这样简单的问题，居然把主流大模型都难倒了？？

强如 GPT-4o，都坚定地认为 9.11 更大。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

谷歌 Gemini Advanced 付费版，同样的口径。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

新王 Claude 3.5 Sonnet，还一本正经的给出离谱的计算方法。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到这一步还是对的，但下一步突然就不讲道理了

如上所示，9.11 比 9.90 大 0.01。

你想让我进一步详细解释小数的比较吗？

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

这你还解释啥啊解释，简直要怀疑是全世界 AI 联合起来欺骗人类了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

艾伦 AI 研究所成员林禹臣换了个数字测试，GPT-4o 依旧翻车，他表示：

一方面 AI 越来越擅长做数学奥赛题，但另一方面常识依旧很难。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

也有网友发现了华点，如果是说软件版本号，那么 9.11 版本确实比 9.9 版本更大（更新）。

而 AI 都是软件工程师开发的，所以……

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

那么，究竟是怎么回事？

先进大模型集体翻车

一觉醒来，一众响当当的大模型开始认为“9.11>9.9”了？

发现这个问题的是 Riley Goodside，有史以来第一个全职提示词工程师。

简单介绍下，他目前是硅谷独角兽 Scale AI 的高级提示工程师，也是大模型提示应用方面的专家。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

最近他在使用 GPT-4o 时偶然发现，当提问：

9.11 and 9.9——which is bigger?

GPT-4o 竟毫不犹豫回答前者更大。

面对这一常识性“错误”，他不死心地又去问了其他大模型，结果几乎全军覆没。

好家伙，身为一名提示工程师，他敏锐意识到可能是“打开方式有误”。

于是他又换了个问法，将提问限定在“实数”，结果还是翻车了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过，有网友试着给提问换了个顺序，没想到这下 AI 竟反应过来了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

看到 AI 对词序如此“敏感”，该网友进一步推测：

先问哪个更大，AI 会沿着明确路径开始比较数字。

但如果只是随便说说数字，没有明确目的，AI 可能会开始“胡思乱想”。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

看到这里，其他网友也纷纷拿相同提示试了一把，结果翻车的不在少数。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

面对这一个诡异的问题，国产大模型表现如何呢？

我们简单测试一番，问题也换成中文提问，结果翻车率也比较高，选取几个有代表性的展示：

Kimi 也是不加解释就直接给出错误结论。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

智谱清言 App 上的 ChatGLM，自动触发了联网查询，然后描述了自己的比较方法，可惜却执行错了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过也有表现不错的，腾讯元宝先复述了一遍选项，然后直接做对。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

字节豆包是少数能把比较方法描述清楚，而且用对的。甚至还联系实际举例来验证。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

比较可惜的是文心一言，面对这个问题，也是触发了联网查询。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

本来都已经做对了，但突然话锋一转又导向了错误结论。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过从文心一言的思路解释上，也可以看出背后问题所在。

由于大模型以 token 的方式来理解文字，当 9.11 被拆成“9”、“小数点”和“11”三部分时，11 确实比 9 大。

由于 OpenAI 使用的 Tokenizer 开源，可以用来观察大模型是如何理解这个问题。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

上图可以看出，9 和小数点分别被分配为“24”和“13”，小数点后的 9 同样也是“24”，而 11 被分配到“994”。

所以使用这种 tokenizer 方法的大模型会认为 9.11 更大，其实是认为 11 大于 9。

也有网友指出，像是书籍目录里第 9.11 节也比第 9.9 节大，所以最终可能还是训练数据里见这种见得多了，而手把手教基础算数的数据很少。

也就是问题本身对人类来说，一看就知道问的是算数问题，但对 AI 来说是一个模糊的问题，并不清楚这两个数字代表什么。

只要向 AI 解释明白这是一个双精度浮点数，就可以做对了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

在有额外条件的情况下，tokenizer 这一步依然会给 11 分配更大的 token。但是在后续自注意力机制的作用下，AI 就会明白要把 9.11 连起来处理了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

后来 Goodside 也补充，并不是说大模型无论如何都认定了这个错误结论。而是当以特定方式提问时，许多领先模型都会告诉你 9.11>9.9，这很奇怪。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

经过反复尝试后他发现，想让 AI 上这个当，需要把选项放在提问前面，如果调换顺序就不会出错。

但是只要选项在问题前面，改变提问的方式，如加标点、换词汇都不会有影响。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

虽然问题很简单，错误很基础。

但了解出错原理之后，许多人都把这个问题当成了检验提示词技巧的试金石，也就是：用什么提问方法能引导大模型的注意力机制正确理解问题呢？

首先，大名鼎鼎的 Zero-shot CoT 思维链，也就是“一步一步地想”，是可以做对的。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

不过角色扮演提示，在这里作用就有限了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

刚好最近也有微软和 OpenAI 都参与的一项研究，分析了 1500 多份论文后发现，随着大模型技术的进步，角色扮演提示不像一开始那样有用了……

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

具体来说，同一个问题提示“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

也是让人哭笑不得了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

One More Thing

与此同时，路透社的 OpenAI 秘密模型「草莓」泄漏消息更新了。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

更新内容为：另一位线人报告，OpenAI 已经在内部测试了新模型，在 MATH 数据集上得分超过 90%。路透社无法确定这是否与“草莓”是同一个项目。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

MATH 数据集包含竞赛级别的数学题，目前不用多次采样等额外方法，最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。

大模型集体“失智”：9.11 和 9.9 哪个大，几乎全翻车了

但是 OpenAI 新模型在没有额外提示情况下，能不能自主解决“9.11 和 9.9 哪个大？”。

突然没信心了，还是等能试玩了再看结果吧……

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨一水，原标题：《大模型集体失智！9.11 和 9.9 哪个大，几乎全翻车了》

给TA打赏

共{{data.count}}人

人已打赏

9.11 9.9 AI 提示模型

微软为 Excel 等研发新 AI 模型：性能较常规方案提高 25.6%，词元使用成本降低 96%

2024-7-16 9:30:28

智能化软件开发2.0 | aiXcoder落地Agent技术，聚焦企业项目级代码生成场景

2024-7-16 14:54:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤
11月14日
TOP2

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理
11月13日
TOP3

腾讯：大模型 App 元宝不会嵌入商业搜索结果，目前专注于尽可能增加对用户的吸引力
11月13日
AI 开始“卷”智能体：OpenAI 被曝明年将推 Operator，可控制电脑、独立执行任务
11月14日
Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片
11月14日
AI面临的五个蛋白质设计问题，Nature找了一群专家来讨论
11月13日
谷歌扩大 AI 洪水预警系统覆盖范围，惠及全球 7 亿人
11月13日
OpenAI 联合创始人回来了，还是总裁，将更专注重大技术挑战
11月13日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

查看所有

我的优惠劵

_￥_优惠劵

使用时效：无法使用

使用时效：
之前

使用时效：永久有效

优惠劵ID：
×

限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]

所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×

删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部