苹果 AI 研究:“猕猴桃”简单算术考倒 o1 和 Llama 等 20 多个最先进模型

《洛杉矶时报》昨日(11 月 1 日)发布博文,报道称苹果研究团队测试了 20 个最先进的 AI 模型,发现在有干扰项存在的情况下,它们处理简单的算术问题时表现不佳,甚至不如小学生。 苹果公司用以下这道简单的算术题测试 20 多个最先进的 AI 模型,AI在线附上题目如下:Oliver 在星期五采摘了 44 个猕猴桃、然后他在星期六采摘了 58 个猕猴桃,星期日采摘的数量是星期五的两倍,不过其中有 5 个猕猴桃的块头要比平均值要小,请问 Oliver 这三天共摘了多少个猕猴桃? 正确答案是 190 个,计算公式为 44(星期五) 58(星期六) 88(44*2,星期日)。

《洛杉矶时报》昨日(11 月 1 日)发布博文,报道称苹果研究团队测试了 20 个最先进的 AI 模型,发现在有干扰项存在的情况下,它们处理简单的算术问题时表现不佳,甚至不如小学生。

苹果公司用以下这道简单的算术题测试 20 多个最先进的 AI 模型,AI在线附上题目如下:

Oliver 在星期五采摘了 44 个猕猴桃、然后他在星期六采摘了 58 个猕猴桃,星期日采摘的数量是星期五的两倍,不过其中有 5 个猕猴桃的块头要比平均值要小,请问 Oliver 这三天共摘了多少个猕猴桃?

正确答案是 190 个,计算公式为 44(星期五)+58(星期六)+88(44*2,星期日)。

不过测试的 20 多个最先进 AI 模型无法排除干扰项,通常不理解猕猴桃的大小和数量无关,大部分的结果是 185 个。

苹果 AI 研究:“猕猴桃”简单算术考倒 o1 和 Llama 等 20 多个最先进模型

苹果团队发现,当问题包含看似相关但实际上无关的信息时,AI 模型的表现急剧下降。对此研究认为,AI 模型主要依赖于训练数据中的语言模式,而非真正理解数学概念。

苹果的研究表明,目前的 AI 模型“无法进行真正的逻辑推理”。这一发现提醒我们,尽管 AI 在某些任务上表现出色,但其智能并不如表面看起来那样可靠。

苹果 AI 研究:“猕猴桃”简单算术考倒 o1 和 Llama 等 20 多个最先进模型

苹果团队指出,简单地扩展数据或计算能力并不能根本解决这个问题,苹果的论文并非旨在削弱对 AI 能力的热情,而是提供一种理性的认知。

相关资讯

曾让Kimi「崩了」的探索版有多厉害?10倍搜索量、精读超500页面,一手实测来了

AI好好用报道编辑:杨文Kimi国庆「憋」大招,「憋」出个探索版。前不久,市场上就有传言称,月之暗面国庆「憋大招」。至于这个「大招」具体是啥,众说纷纭:有人说和多模态有关,还有人说是关于深度推理的。

10位大咖云聚,400分钟干货分享,这里有一场AI 产业发展趋势分享会等你来看!

从 2015 年的 Alpha Go 人机大战,人工智能热潮如平地惊雷,光芒尽显。到 2020 年的突发疫情,倒逼产业智能突围,带来数字时代转型升级的加速发展。风起于青萍之末,浪成于微澜之间,从 2015 年到 2020 年,AI 产业趋势变化的草蛇灰线逐渐显现。在不平凡的 2020 年,意外和契机相伴而至,稳健与突破竞相呈现。站在 2020 的尾巴上,伴随着对过去的梳理和对未知的期待,我们需要重振激情,用全方位的知识储备把握未来 AI 产业趋势的走向和发展。新春将至,在即将到来的牛年里,作为一个 AI 人下面一年

谷歌将在马来西亚投资 20 亿美元:建数据中心 / 进一步开发 AI,拟创造 2.65 万个就业岗位

感谢谷歌今日通过声明宣布,承诺在马来西亚投资 20 亿美元(IT之家备注:当前约 145.2 亿元人民币),投资项目包括建设首座数据中心、新的谷歌云区域以及进一步开发人工智能等。Alphabet 首席财务官 Ruth Porat 表示,此次为谷歌在东南亚国家最大的投资计划。上述投资包括培养当地民众 AI 素养的计划,预计到 2030 年将为马来西亚 GDP 带来超 32 亿美元(当前约 232.32 亿元人民币)贡献,创造 2.65 万个就业岗位。马来西亚总理安瓦尔・易卜拉欣表示,“毫无疑问,这将使马来西亚成为使用