多元推理刷新「人类的最后考试」记录，o3-mini(high)准确率最高飙升到37％

2025-03-03 09:04

近段时间，DeepSeek R1 推理模型引爆了国内外社交媒体，让人们见识到了大语言模型类人的深度思考能力。虽然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在数学和编程领域取得了重大进展，但在面对一些测试基准时仍然力不从心，比如国际数学奥林匹克竞赛（IMO）组合问题、抽象和推理语料库（ARC）谜题和人类的最后考试（HLE）问题。以 HLE 为例，主流的推理模型集体翻车，结果显示 DeepSeekR1、o1 的准确率都低于 10%。

近段时间，DeepSeek R1 推理模型引爆了国内外社交媒体，让人们见识到了大语言模型类人的深度思考能力。

虽然 DeepSeek R1、OpenAI o1 和 o3 等推理模型在数学和编程领域取得了重大进展，但在面对一些测试基准时仍然力不从心，比如国际数学奥林匹克竞赛（IMO）组合问题、抽象和推理语料库（ARC）谜题和人类的最后考试（HLE）问题。以 HLE 为例，主流的推理模型集体翻车，结果显示 DeepSeekR1、o1 的准确率都低于 10%。

如何提升推理模型在这些较难基准上的准确率呢？近日，波士顿大学、 NotBadMath.AI、谷歌等机构的研究者在最新的论文中，提出了一种在测试时结合多种模型和方法的多元推理方法。结果显示，该推理方法在验证数学和编码问题以及其他问题的拒绝采样时简单而高效。

具体来讲，研究者通过交互式定理证明器 Lean 来自动验证 IMO 问题答案的正确性，通过代码自动验证 ARC 谜题，以及通过 best-of-N 算法有效地回答 HLE 问题。

论文标题：Diverse Inference and Verification for Advanced Reasoning
论文地址：https://arxiv.org/pdf/2502.09955

从实验结果来看，研究者将 IMO 组合问题答案的准确率从 33.3% 提升到 77.8%，将 HLE 问题的准确率从 8% 提升到 37%，并解决了 948 名人类无法攻克的 80％的 ARC 谜题和 o3 high 无法解决的 26.5 % 的 ARC 谜题。

研究者表示，通过调整代理图表示和不同的提示词、代码和数据集，测试时模拟、强化学习和具有推理反馈的元学习等可以提高推理模型的泛化能力。

此外，研究者还发现了基础语言模型的第三个实证性 scaling law，即多种模型、方法的数量与可验证问题性能之间的关系，它们呈正向关系。前两个 scaling law 分别如下：

模型大小、数据大小和损失之间的关系，即更多参数、训练数据和训练时的语言模型表现更好。
模型性能和测试时算力之间的关系，早期棋盘游戏中验证了训练时和测试时算力之间的权衡，增加其中任何一项都会带来更好的性能。最近 DeepMind 的 AlphaCode 2 和 OpenAI 的 o1、o3-mini 展示了测试时算力扩展对推理型 LLM 的助益。

方法概览

研究者在方法部分主要有以下三项成果：

一是多元推理（diverse inference）。研究者在测试时聚合了多个模型、方法和代理，而不是依赖单个模型和方法。任何一个正确的解决方案都会对 IMO 组合题和 ARC 谜题的可验证任务进行自动验证。具体如下：

IMO：研究者使用 8 种不同的方法，分别是 LEAP、Z3、RTO、BoN、SC、MoA、MCTS、PV，可以显著提高推理模型准确率。其中将英语题目自动形式化为 Lean，从而完成了完美验证。
ARC：合成代码解决方案在训练示例上作为单元测试（unit test）进行验证。
HLE：使用 best-of-N 作为不完美验证器，随着示例增加而解决率提升。

二是测试时模拟和强化学习。研究者在推理时生成了额外的特定于问题的信息，其中：

IMO：将组合题转化为了可交互游戏环境，并使用组合搜索或深度强化学习来得出部分结果或边界。
ARC：通过合成代码来探索谜题转换，从而删除不正确的解决方案并优化候选解决方案。

另外，研究者表示，在给定相同数据集的情况下，使用训练过的验证器进行搜索往往比监督微调效果要好，这激发了强化学习微调。他们通过运行测试时模拟和强化学习来生成额外数据，从而能够正确证明 2024 IMO 组合题并求解困难的 ARC 谜题。

下图 1 展示了研究者求解 IMO 组合题所用方法的高级架构，其流程包含了几个组件，分别是编码、模拟以及深度强化学习和解码。

在编码阶段，研究者通过将问题形式化为状态空间、动作空间和奖励来找到答案，然后提示 LLM 将问题转化为一个游戏环境。研究者将问题表示为 Gymnasium 开源项目中的 Python 代码，其中包括代理和策略，并使用模拟和深度强化学习来找到最优策略。他们重复此过程，为每个问题生成具有不同维的多个游戏，并为每个游戏的不同情节生成对应的数据和视频。

在解码阶段，研究者提取数据和帧并通过转换对它们进行扩充，并使用 LLM 以摘要的形式为每个序列的图像和策略解释编写文本表示。最后，研究者利用这些信息以及附录 M 和 N 中的问题陈述、答案、书籍和指南，通过上下文学习来自动形式化证明。

三是代码图的元学习。研究者使用 LLM 和其他工具来追踪 pipeline 运行，并生成超参数、提示词、代码标题和数据的 A/B 测试，并自适应地修改代理图。

实验结果

研究者使用了不同的模型和方法对 IMO 组合问题进行了广泛的评估，他们测试了来自未污染（non-contaminated）考试中的所有组合问题。

结果显示，零样本 o1 回答对了 1/9（准确率约 11％）的问题，使用 o3-mini 的最佳方法回答对了 3/9（准确率约 33.3％）的问题，而使用了 o3-mini high 的 8 种多元方法回答对了 7/9（准确率约 77.8％）的问题，并进行了自动验证。

类似地，使用 o1 的最佳方法回答对了 3/9（准确率约 33.3％）的问题，而使用了 o1 的多元方法回答对了 6/9（准确率约 66.7％）的问题，也进行了自动验证。

其次，研究者使用了 400 个 ARC 评估谜题，对 16 个模型和方法进行了广泛的评估，结果如下图 4 和图 5 所示，共有以下几项发现

没有 o3，16 个多元模型和方法将模型性能从 53％提升到了 69.5%。
有了 o3，16 个多元模型和方法将模型性能从 91.5% 提升到了 93.75%。
16 个多元模型和方法解决了 948 名人类无法解决的 80% 的谜题。
16 个多元模型和方法解决了 o3 high 失败的 26.5% 的谜题。

最后对于 HLE 问题，由于计算成本的原因，研究者随机抽取了 100 个问题进行测试。不同模型和方法的准确率如下表 1 所示，其中 o3-mini high 非多模态，取得了 13.0％的准确率；Deep Research 使用了网络搜索和代码，取得了最高 26.6％的准确率。

此外，使用 o3-mini high 对这 100 个随机采样问题进行 best-of-N 拒绝采样（N=3），所有类别的准确率为 37％，数学问题的准确率为 33.3%；使用 o1 时所有类别的准确率为 21%，数学问题的准确率为 29.6%，具体如下图 6 和图 7 所示。

更多方法细节和实验结果请参阅论文附录。

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

降低门槛，全平台应用，昇腾还会手把手地教你如何用AI

机器之心报道作者：泽南如何才能做到 AI 应用一次开发，全场景部署？昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上，覆盖数十个版本的操作系统，运行在从端侧到云计算集群的各种设备上。这样复杂的环境，对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流，昇腾发布的 CANN、MindSpore、MindX 等工具，可以让开发者实现「统一端边云，全端自动部署」，开启了机器学习开发的新时代，一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中，基础架构作为连接硬件与

3/19/2021 11:23:00 AM

机器之心

院士、委员、专家共议“双智建设”：场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施，已经成为日常生活中随处可见的元素。2021年，住建部和工信部将16个城市列为双智试点城市，探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路？双智的未来该走向何处？这些问题成为当前双智行业关注的重点。近日，由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“，共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研

3/15/2022 4:10:00 PM

新闻助手

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 Figma 推 AI 革命：开发智能应用制作器与网站创建工具 Midjourney图像编辑器迎来重大更新：全新UI、图层功能与智能工具上线

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora Anthropic AI for Science 3D AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习苹果 AI视频模态 xAI 字节跳动驾驶文本搜索 Claude 大语言模型具身智能 Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊大型语言模型干货合集特斯拉 2024 AGI 训练

顶部

多元推理刷新「人类的最后考试」记录，o3-mini(high)准确率最高飙升到37％

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

降低门槛，全平台应用，昇腾还会手把手地教你如何用AI

院士、委员、专家共议“双智建设”：场景驱动、标准协同、以人为本