​新测试挑战 AI 智能水平:ARC-AGI-2 让顶尖模型碰壁

近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平。 该基金会由著名 AI 研究者 François Chollet 共同创立。 根据基金会的博客,这项新测试对大多数领先的 AI 模型提出了严峻挑战。

近日,Arc Prize 基金会发布了一项全新的测试 ——ARC-AGI-2,旨在测量人工智能(AI)模型的通用智能水平。该基金会由著名 AI 研究者 François Chollet 共同创立。根据基金会的博客,这项新测试对大多数领先的 AI 模型提出了严峻挑战。

QQ_1742868386676.png

根据 Arc Prize 排行榜,诸如 OpenAI 的 o1-pro 和 DeepSeek 的 R1等 “推理型” AI 模型在 ARC-AGI-2测试中的得分仅在1% 到1.3% 之间,而更为强大的非推理模型,例如 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 的得分也大约在1%。ARC-AGI 测试包含了一系列拼图问题,要求 AI 从不同颜色的方块中识别出视觉模式,并生成正确的 “答案” 网格。这些问题旨在迫使 AI 适应未曾见过的新问题。

为了建立人类基准,Arc Prize 基金会邀请了超过400人参与 ARC-AGI-2测试。这些人群的平均得分为60%,远远超过任何 AI 模型的得分。Chollet 在社交媒体上表示,ARC-AGI-2比前一个版本 ARC-AGI-1更能有效地测量 AI 模型的实际智能。新的测试旨在评估 AI 系统是否能高效地获取超出其训练数据的新技能。

QQ_1742868401593.png

与 ARC-AGI-1相比,ARC-AGI-2的设计改进了多个方面,尤其是引入了 “效率” 这一新指标,并要求模型在没有依赖记忆的情况下即时解释模式。正如 Arc Prize 基金会的共同创始人 Greg Kamradt 所言,智力不仅仅体现在解决问题的能力上,效率同样是一个关键因素。

值得注意的是,OpenAI 的 o3模型在 ARC-AGI-1中以75.7% 的得分无人能敌,直到2024年才被超越。然而,o3在 ARC-AGI-2中的得分却仅为4%,在每个任务上的计算成本高达200美元。ARC-AGI-2的发布正值技术界对新的 AI 进展衡量标准的呼声日益高涨。Hugging Face 的联合创始人 Thomas Wolf 曾表示,AI 行业缺乏足够的测试来衡量被称为人工通用智能的关键特征,包括创造力。

与此同时,Arc Prize 基金会还宣布了2025年的 Arc Prize 竞赛,挑战开发者在 ARC-AGI-2测试中达到85% 的准确率,而每个任务的花费仅为0.42美元。

划重点:

🌟 ARC-AGI-2是 Arc Prize 基金会新推出的测试,旨在衡量 AI 的通用智能水平。  

📉 目前顶尖 AI 模型在该测试中的得分普遍较低,远不及人类的平均水平。  

🏆 Arc Prize 基金会还将举办挑战赛,鼓励开发者以低成本提高 AI 在新测试中的表现。

相关资讯

英特尔推出 AI Playground 应用,旨在帮助 AI 新手快速入门

英特尔在台北国际电脑展上推出了一款全新的人工智能工具 ——AI Playground,旨在让生成式 AI 新手快速实现入门,这款软件预计将在今年夏天免费提供下载。值得一提的是,AI Playground 需要搭配英特尔 AI XMX 引擎,所以需要有 Arc 锐炬独显或集成 Arc GPU 的英特尔酷睿 Ultra 处理器。英特尔表示,AI Playground 可以像其他 Windows 应用程序一样安装,无需使用命令行和脚本即可 PC 上本地化运行 AI 功能。据介绍,AI Playground 具备一体化 A

人形机器人:视频里性感,现实中孤独

机器之能报道编辑:Sia“我们的一些竞争对手曾公开声明,他们使用五根手指的手基本上是为了进行品牌推广。”昨天 Figure 01 又让无数人惊掉下巴。这次不是融资金额,而是一边归置餐具一边唠嗑的能力。形成鲜明对比的是,在北美最大的制造业和供应链贸易盛会 MODEX 上,人形机器人少得可怜。除了 Digit,还有一个给人取零食的人形机器人,不过是靠远程操控。Reflex Robotics 的人形机器人能从不同高度的货架上拿取物品,底部是轮子,不是自主运行,而是远程操控。对手上热搜,一支由八台 Digit 组成的工作小

Arc 浏览器开发商预告全新 AI 浏览器 Dia,计划 2025 年初推出

该公司最新的宣传片显示该产品为 Dia,这是一个利用 AI 工具简化日常互联网任务的网络浏览器,计划于 2025 年初推出。