9.9
9.11和9.9谁大?我们实测15个大模型,超半数翻车
机器之能报道编辑:杨文大模型们还是搞不定简单的数学题。这几天,一个测试大模型「脑瓜」灵不灵光的提示词火了 ——9.11 和 9.9 哪个大?这道连小学生都能一口答对的数学题,却难倒一片大模型界的「英雄好汉」。事情是这样的。Scale AI 的高级提示工程师 Riley Goodside 拿「9.11 and 9.9——which is bigger?」这个提示词来问 GPT-4o,却得到「前者更大」的回答。其他大模型也纷纷翻车。7 月 17 日,我们拿国内 12 款大模型,外加国外的 GPT-4o、Claude 3
大模型集体“失智”:9.11 和 9.9 哪个大,几乎全翻车了
没眼看……“9.11 和 9.9 哪个大”这样简单的问题,居然把主流大模型都难倒了??强如 GPT-4o,都坚定地认为 9.11 更大。谷歌 Gemini Advanced 付费版,同样的口径。新王 Claude 3.5 Sonnet,还一本正经的给出离谱的计算方法。9.11 = 9 1/10 1/1009.9 = 9 9/10到这一步还是对的,但下一步突然就不讲道理了如上所示,9.11 比 9.90 大 0.01。你想让我进一步详细解释小数的比较吗?这你还解释啥啊解释,简直要怀疑是全世界 AI 联合起
- 1