中杯o3成OpenAI“性价比之王”？ARC-AGI测试结果出炉：得分翻倍、成本仅1/20

作者：量子位

2025-04-23 11:19

得分比第二名翻倍，成本却仅为1/20？ o3中杯在超难推理任务ARC-AGI上的新成绩，属实又给众人带来了亿点点震撼。根据ARC Prize官方介绍，本轮测试得出的关键结论如下：o3 (Medium) 在ARC-AGI-1上得分为57%，成本为1.5美元/任务，优于目前所有已知COT推理模型；o4-mini（Medium）在ARC-AGI-1上得分为42%，成本为0.23美元/任务，准确率不足但成本优势明显；在难度升级的ARC-AGI-2上，两种型号模型的准确率均未超过3%。

得分比第二名翻倍，成本却仅为1/20？！

o3中杯在超难推理任务ARC-AGI上的新成绩，属实又给众人带来了亿点点震撼。

根据ARC Prize官方介绍，本轮测试得出的关键结论如下：

o3 (Medium) 在ARC-AGI-1上得分为57%，成本为1.5美元/任务，优于目前所有已知COT推理模型；
o4-mini（Medium）在ARC-AGI-1上得分为42%，成本为0.23美元/任务，准确率不足但成本优势明显；
在难度升级的ARC-AGI-2上，两种型号模型的准确率均未超过3%。

按照最新ARC测试，中杯o3堪称目前OpenAI所有模型中的“性价比之王”。

不过值得注意的是，相比2024年12月OpenAI在“双十二”直播活动中发布的o3模型，最新成绩可谓“大幅缩水”。

当时o3在低推理能力设置下（Low）得分高达75.7%，并且让模型推理更长时间后，其得分更是首次超越人类（85%）飙升至87.5%。

那么问题来了，为何短短几个月过去，o3模型在ARC测试上的得分差异明显呢？

原来前后两个模型虽然名称一样，但实际并非相同的模型。

OpenAI当下最新的o3，已针对聊天和产品应用进行了微调。

△图源：ARC Prize官网

甚至，OpenAI研究员们也强调，最新发布的o3并未专门针对ARC-AGI测试进行训练。

也就是说，中杯o3第一次挑战ARC难题就取得了好成绩。

宾大沃顿商学院教授Ethan Mollick更是直言：

现在有更多的证据表明， o3代表着一次重大进步。

与此同时，时代杂志发表的一篇独家文章表示，o3优于94%的专业病毒学家。其在这一专业领域的准确率达到了43.8%，相比之下博士级人类专家的准确率仅为22.1%。

中杯o3 ARC-AGI测试成绩出炉

ARC-AGI是一项旨在评判大模型的“智力”，或者说“AGI能力”的基准测试。

里面包含了一系列拼图问题，要求AI从不同颜色的方块中识别出视觉模式，并生成正确的 “答案” 网格。这些问题主要是为了迫使AI适应未曾见过的新问题。

正如开头所言，在ARC-AGI-1中，o3模型曾以75.7%的得分“称王称霸”。而在看到这一成绩后，ARC官方感受到了进一步更新的紧迫性。

于是在2024年3月，他们上新了ARC-AGI-2版本，核心目标是测试模型能否高效地获取超出其训练数据的新技能。

具体而言，在ARC-AGI-1基础之上，官方引入了更多符号解释、多组合规则以及需要更深层次抽象的任务，难度再次大升级。

正是基于以上两个测试基准，在OpenAI最新上线了o3和o4-mini之后，ARC又重新进行了测试。

除了中杯o3取得的好成绩，更多测试结果如下：

首先是o3 (high)，ARC官方自称耗费超过5万美元，最终仍未获得o3 (high)的完整测试结论。

理由是，在高推理能力设置下，模型在大多数情况下均无法响应或超时，最后只有不到一半的任务返回了结果。

不过参与审查的Mike Knoop表示，建议默认使用o3 (high)设置，除非遇到超时才切换到Medium选项。

同时他认为，虽然中杯o3的准确率远低于o3-preview（去年12月的版本），但毫无疑问o3整体在准确率和成本优化方面做得非常出色。

如今，你在其他任何地方都买不到o3级别的AI推理能力。

一言以蔽之，本轮测试结果表明，中杯o3在继承o3-preview大部分新功能的前提下，成本有了大幅下降。

除此之外，ARC官方还得出了三个关键发现：

1、早期响应准确率更高：模型越早返回的任务，准确率越高。而那些耗时更长（无论是运行时间还是token使用量）的任务，失败的可能性更大。

2、高级推理可能效率低下：在相同任务上比较中杯o3和o3 (high)时，发现后者始终使用更多token来得出相同的答案。

3、每秒token数的最小变化：在o系列模型中，不同任务的每秒token数差异较小。特别是o3-mini-low和o4-mini-low的吞吐量（tok/s）高于中高版本。

One More Thing

顺带一提，ARC官方早前还测试过DeepSeek-R1。

最终结果是，在ARC-AGI-1基准上，DeepSeek-R1得分为15.8%，远低于o3模型。

你怎么看o3的新测试？

相关标签：

AI 模型测试

相关资讯

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

被AI追杀，还要解谜逃生！UCSD等发布LLM测试神器，边玩游戏边评估

你以为你在打游戏，其实是在给模型做评测！就在两天前，由UCSD、UC伯克利等机构联合组建的GameArena团队开发了一个实时Roblox游戏「AI Space Escape」（AI空间逃脱），提供了一种与AI互动的独特体验。现在，你想要测试不同模型的性能对比，打着游戏就能把活儿给干了。

2/13/2025 10:00:00 AM

新智元

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

大模型刷榜 MMLU、屠榜 GPQA 的玩法一夜变天？？？

3/5/2025 8:40:00 AM

量子位

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

高中生用「我的世界」评测SOTA模型！Claude暂时领先，DeepSeek紧随其后

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难？对于现如今的LMMs来说，通过各种人类「听着就头痛，看又看不懂」的基准测试似乎已是家常便饭。比如DeepSeek-R1发布时在6大基准测试（包含AIME、MMLU、MATH-500等）中超过o1取得领先。

3/31/2025 9:20:00 AM

新智元

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部