全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

2025-03-25 03:41

Arc Prize基金会推出ARC-AGI-2测试，衡量AI通用智能水平。OpenAI的o1-pro和DeepSeek的R1等模型表现不佳，得分仅1%-1.3%。人类小组平均正确率60%，远超AI。ARC-AGI-2测试强调效率和实时解读模式，挑战AI在训练数据外获取新技能的能力。#AI测试##ARC-AGI-2#

Arc Prize 基金会是一家由知名人工智能研究员弗朗索瓦・肖莱（François Chollet）共同创立的非营利组织，该基金会于本周一在其博客上宣布推出一个名为 ARC-AGI-2 的全新测试，旨在衡量领先人工智能模型的通用智能水平。这项测试的难度极高，截至目前，大多数 AI 模型都在该测试中表现不佳。

根据 Arc Prize 排行榜的数据显示，以推理能力著称的 AI 模型，如 OpenAI 的 o1-pro 和 DeepSeek 的 R1，在 ARC-AGI-2 测试中的得分仅为 1% 至 1.3%。而包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 等强大的非推理型模型，得分也仅在 1% 左右。

ARC-AGI 测试由一系列类似谜题的问题组成，要求 AI 从一组不同颜色的方块中识别出视觉模式，并生成正确的“答案网格”。这些问题的设计旨在迫使 AI 适应其未曾见过的新问题。为了建立人类基线，Arc Prize 基金会邀请了超过 400 人参加 ARC-AGI-2 测试。平均而言，这些参与者组成的“小组”能够正确回答测试中 60% 的问题，这一成绩远远超过了任何 AI 模型的得分。

全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

Arc-AGI-2 的一个示例问题

在 X 平台上，肖莱表示，ARC-AGI-2 测试比之前的 ARC-AGI-1 测试更能准确衡量 AI 模型的实际智能水平。Arc Prize 基金会的测试旨在评估 AI 系统是否能够在训练数据之外高效地获取新技能。

肖莱指出，与 ARC-AGI-1 不同，新的 ARC-AGI-2 测试防止了 AI 模型依赖“蛮力”—— 即大量的计算能力 —— 来寻找解决方案。他此前曾承认，这是 ARC-AGI-1 的一个主要缺陷。为了弥补这一缺陷，ARC-AGI-2 引入了一个新的指标：效率。它还要求模型实时解读模式，而不是依赖记忆。

“智能不仅仅是解决问题或取得高分的能力，”Arc Prize 基金会联合创始人格雷格・卡姆拉德（Greg Kamradt）在其博客中写道，“这些能力的获取和部署效率是至关重要的决定性因素。我们提出的核心问题不仅仅是‘AI 能否获得解决任务的技能？’，还包括‘以何种效率或代价？’”

ARC-AGI-1 在大约五年内无人能敌，直到 2024 年 12 月，OpenAI 发布了其先进的推理模型 o3，该模型超越了所有其他 AI 模型，并在评估中达到了人类水平的表现。然而，正如当时所指出的，o3 在 ARC-AGI-1 上的性能提升是以高昂的成本为代价的。

OpenAI 的 o3 模型（低配版）—— 第一个在 ARC-AGI-1 上取得突破的版本，在该测试中得分高达 75.7%，但在 ARC-AGI-2 测试中，即使使用价值 200 美元的计算能力，其得分也仅为 4%。

全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

ARC-AGI-2 的推出正值科技行业许多人呼吁需要新的、未饱和的基准来衡量 AI 进展之时。Hugging Face 联合创始人托马斯・沃尔夫（Thomas Wolf）最近在接受 TechCrunch 采访时表示，AI 行业缺乏足够的测试来衡量所谓的通用人工智能的关键特质，包括创造力。

与此同时，Arc Prize 基金会还宣布了 2025 年 Arc Prize 竞赛，挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率，同时每项任务的花费不超过 0.42 美元（AI在线注：现汇率约合 3 元人民币）。

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

2024 年 AI 十大故事，透视技术变革与未来挑战

编辑 | 20492024 年，人工智能技术持续改变着我们的生活和工作方式。 IEEE Spectrum 精选了年度最具影响力的 10 个 AI 故事，从技术突破到社会影响，全方位展现了 AI 发展的现状与挑战。这些故事不仅反映了生成式 AI 的革命性进展，也揭示了其存在的局限与争议。

2/6/2025 2:06:00 PM

ScienceAI

AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

这项研究由奥地利复杂科学研究所（CSH）的团队主导，旨在测试三大顶尖大型语言模型（LLMs）——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具，其根据 Seshat 全球历史数据库来测试答案的正确性，Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。研究结果于上月在知名 AI 会议 NeurIPS 上公布，结果显示，即使是表现最佳的 GPT-4 Turbo 模型，其准确率也仅为 46%，并不比随机猜测高多少。

1/20/2025 4:24:35 PM

远洋

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

全新 ARC-AGI-2 测试登场：AI 模型得分惨淡，被人类碾压

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

2024 年 AI 十大故事，透视技术变革与未来挑战

AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%