一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

作者：机器之心

2024-12-30 09:55

前几天，OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料，是新的推理系列模型 o3 和 o3-mini 。从 o1 开始，OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI，这项基准已经提出了 5 年时间，但一直未被攻克。

前几天，OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料，是新的推理系列模型 o3 和 o3-mini 。

从 o1 开始，OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI，这项基准已经提出了 5 年时间，但一直未被攻克。

而新模型 o3 是首个突破 ARC-AGI 基准的 AI 模型：最低性能可达 75.7%，如果让其使用更多计算资源思考更长时间，甚至可以达到 87.5% 的水平。

对于 o1 来说，此前在这项基准中能达到的准确率仅在 25% 到 32% 之间。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

在 ARC-AGI 基准中，AI 需要根据配对的「输入 - 输出」示例寻找规律，然后再基于一个输入预测输出。ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中表示，虽然成本高昂，但仍然表明新任务的性能确实随着计算量的增加而提高。o3 在低计算量模式下每个任务需要 17-20 美元，高计算量模式下每个任务数千美元。但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。

「这不仅仅是渐进式的改进，而是真正的突破，标志着与 LLM 之前的局限性相比，人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务，可以说在 ARC-AGI 领域接近人类水平的表现。」

比如，对于同一道题，Llama 系列的模型就会因为参数量的提高，从而推测出更加准确的答案。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

但大家也注意到了，在 ARC-AGI 的 400 个任务中，还有 34 个任务是 o3 无法解决的，即使思考了 16 小时也没能给出正确答案。正如 François Chollet 所说：「事实上，我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败，这表明其与人类智能存在根本差异。」

这些任务是什么，难点又在哪里，接下来让我们一起看看。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

人们惊讶于 o3 无法解决它（没有看到尝试）。实际上，这些样本可能没有详细说明，并且 o3 的第一个解决方案是正确的。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

这个任务是整个数据集中唯一一个模型无法输出网格的样本 —— 在某些列上添加了错误的额外方块。在 ARC 上，使用较小的 LLM 时经常会看到这种情况。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

这个题目看似简单，其实很有挑战性。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

o3 的第一次尝试就是完全照搬了输入，啥都没改，相当于在答题卡上照抄了一遍题干。

这也能理解，对于一个只能一维思考的模型来说，识别二维物体确实很难。François Chollet 表示，之前就发现过一维推理的局限性，有意思的是，如果在第二次尝试时给大语言模型看旋转或翻转后的题目，它们的表现会明显提升。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

这道题主要考验空间思维能力，不像其他题目那样需要对网格做复杂的改动，不过也不影响最后做错的结果......

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

这次算是一个不错的尝试 —— 虽然还是出了点问题。有意思的是，在输出第二个答案时，o3 虽然做了一堆推理，最后却只是简单画了几条重复的线（这明显不对）。说实话，感觉它就像是「算了算了，我不玩了！」

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

测试样本比训练样本大得多，这一点很有意思。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

可以看到，和标准答案相比，o3 的结果不仅一点边都没沾上，第二次还直接「摆烂了」，交了白卷。

François Chollet 指出：「这恐怕是最不理想的一次测试案例。模型的表现难以解释，o3 似乎在这里直接放弃了尝试。不过还不确定这是否是因为第一次模型已经意识到自己的错误，从而触发了 OpenAI 预设的某种机制。」

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

每一行都是正确的，但在整个网格上却错位了。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

o3 在两个答案中都漏了一些行、列。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

o3 对俄罗斯方块类型的题完全没招，我们可以在前面的任务 [1acc24af] 中看到同样的情况。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

这两次，o3 都在答案中少生成了一行。看来，它很难记住还有多少相同重复的行要输出。

一道题烧几千美元，OpenAI新模型o3：这34道题我真不会

相关标签：

AI 模型数据

相关资讯

弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

离大谱了，弱智吧登上正经 AI 论文，还成了最好的中文训练数据？？具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：最离谱的是，弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI，这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院

美国酝酿 AI「登月计划」，陶哲轩领衔 62 页报告重磅发布

美国酝酿 AI「登月计划」，陶哲轩领衔 62 页报告重磅发布

【新智元导读】就在刚刚，陶哲轩领衔的一份 62 页报告出炉了，总结和预测了 AI 对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现，美国酝酿的 AI「登月计划」就将成真。就在刚刚，陶哲轩领衔的一份 AI 技术对全球研究潜在影响的技术报告发布了。这份报告长达 62 页，总结了 AI 对材料、半导体设计、气候、物理、生命科学等领域已经做出的改变，以及预测它们在未来可能由 AI 产生的改变。报告地址： AI 工具已经改变的科学领域的小插曲，陶哲轩等人还发出了三个呼吁 ——1.

微软正努力治疗 AI 幻觉，以技术手段实时屏蔽和重写毫无根据的信息

微软正努力治疗 AI 幻觉，以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时，微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状，他们设定了一个会让大多数人头疼的文本检索任务，然后跟踪并改进模型响应，这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示，“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源，因此我们认为自己可以帮助阐明“应该如何负责任地使用新

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品阿里云与黑芝麻智能完成大模型车载芯片级适配突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制啥玩意值8499元？马斯克在线打call，国产AI威震天秒售罄斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手 AI模拟细胞，走向全新虚拟生命，斯坦福团队呼吁是时候走出全新的一步了

标签云