一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

前几天,OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。 从 o1 开始,OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。 此次被用来验证 o3 推理能力的基准是 ARC-AGI,这项基准已经提出了 5 年时间,但一直未被攻克。

前几天,OpenAI 已经完成了 12 连更的最后一更 —— 如外界所料,是新的推理系列模型 o3 和 o3-mini 。

从 o1 开始,OpenAI 所指出的推理 Scaling Law 似乎带来了全新的实现 AGI 的希望。此次被用来验证 o3 推理能力的基准是 ARC-AGI,这项基准已经提出了 5 年时间,但一直未被攻克。

而新模型 o3 是首个突破 ARC-AGI 基准的 AI 模型:最低性能可达 75.7%,如果让其使用更多计算资源思考更长时间,甚至可以达到 87.5% 的水平。

对于 o1 来说,此前在这项基准中能达到的准确率仅在 25% 到 32% 之间。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

在 ARC-AGI 基准中,AI 需要根据配对的「输入 - 输出」示例寻找规律,然后再基于一个输入预测输出。ARC-AGI 发起者、Keras 之父 François Chollet 在测试报告中表示,虽然成本高昂,但仍然表明新任务的性能确实随着计算量的增加而提高。o3 在低计算量模式下每个任务需要 17-20 美元,高计算量模式下每个任务数千美元。但这些数字不仅仅是将暴力计算应用于基准测试的结果。OpenAI 的新 o3 模型代表了人工智能适应新任务的能力的重大飞跃。

「这不仅仅是渐进式的改进,而是真正的突破,标志着与 LLM 之前的局限性相比,人工智能能力发生了质的转变。o3 能够适应以前从未遇到过的任务,可以说在 ARC-AGI 领域接近人类水平的表现。」

比如,对于同一道题,Llama 系列的模型就会因为参数量的提高,从而推测出更加准确的答案。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

但大家也注意到了,在 ARC-AGI 的 400 个任务中,还有 34 个任务是 o3 无法解决的,即使思考了 16 小时也没能给出正确答案。正如 François Chollet 所说:「事实上,我认为 o3 还不是 AGI。o3 在一些非常简单的任务上仍然失败,这表明其与人类智能存在根本差异。」

这些任务是什么,难点又在哪里,接下来让我们一起看看。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

人们惊讶于 o3 无法解决它(没有看到尝试)。实际上,这些样本可能没有详细说明,并且 o3 的第一个解决方案是正确的。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

这个任务是整个数据集中唯一一个模型无法输出网格的样本 —— 在某些列上添加了错误的额外方块。在 ARC 上,使用较小的 LLM 时经常会看到这种情况。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

这个题目看似简单,其实很有挑战性。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

o3 的第一次尝试就是完全照搬了输入,啥都没改,相当于在答题卡上照抄了一遍题干。

这也能理解,对于一个只能一维思考的模型来说,识别二维物体确实很难。François Chollet 表示,之前就发现过一维推理的局限性,有意思的是,如果在第二次尝试时给大语言模型看旋转或翻转后的题目,它们的表现会明显提升。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

这道题主要考验空间思维能力,不像其他题目那样需要对网格做复杂的改动,不过也不影响最后做错的结果......

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

这次算是一个不错的尝试 —— 虽然还是出了点问题。有意思的是,在输出第二个答案时,o3 虽然做了一堆推理,最后却只是简单画了几条重复的线(这明显不对)。说实话,感觉它就像是「算了算了,我不玩了!」

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

测试样本比训练样本大得多,这一点很有意思。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

可以看到,和标准答案相比,o3 的结果不仅一点边都没沾上,第二次还直接「摆烂了」,交了白卷。

François Chollet 指出:「这恐怕是最不理想的一次测试案例。模型的表现难以解释,o3 似乎在这里直接放弃了尝试。不过还不确定这是否是因为第一次模型已经意识到自己的错误,从而触发了 OpenAI 预设的某种机制。」

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

每一行都是正确的,但在整个网格上却错位了。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

o3 在两个答案中都漏了一些行、列。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

o3 对俄罗斯方块类型的题完全没招,我们可以在前面的任务 [1acc24af] 中看到同样的情况。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

这两次,o3 都在答案中少生成了一行。看来,它很难记住还有多少相同重复的行要输出。

一道题烧几千美元,OpenAI新模型o3:这34道题我真不会

相关资讯

弱智吧竟成最佳中文 AI 训练数据?中科院等:8 项测试第一,远超知乎豆瓣小红书

离大谱了,弱智吧登上正经 AI 论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错,论文中的 Ruozhiba 就是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风通常是这样的:最离谱的是,弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI,这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院

美国酝酿 AI「登月计划」,陶哲轩领衔 62 页报告重磅发布

【新智元导读】就在刚刚,陶哲轩领衔的一份 62 页报告出炉了,总结和预测了 AI 对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现,美国酝酿的 AI「登月计划」就将成真。就在刚刚,陶哲轩领衔的一份 AI 技术对全球研究潜在影响的技术报告发布了。这份报告长达 62 页,总结了 AI 对材料、半导体设计、气候、物理、生命科学等领域已经做出的改变,以及预测它们在未来可能由 AI 产生的改变。报告地址: AI 工具已经改变的科学领域的小插曲,陶哲轩等人还发出了三个呼吁 ——1.

微软正努力治疗 AI 幻觉,以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时,微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型响应,这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示,“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源,因此我们认为自己可以帮助阐明“应该如何负责任地使用新