人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演机器学习届“神仙打架”；R1排第三，Claude夺冠

2025-04-03 01:35

编辑 | 李美涵出品 | 51CTO技术栈（微信号：blog51cto）深夜，OpenAI再次发力Agent领域，开源了一个全新的AI Agent评测基准—— PaperBench。这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、构建代码库并成功执行实验。

编辑 | 李美涵

出品 | 51CTO技术栈（微信号：blog51cto）

深夜，OpenAI再次发力Agent领域，开源了一个全新的AI Agent评测基准—— PaperBench。

这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、构建代码库并成功执行实验。

图片

看得出，OpenAI新的基准测试PaperBench，无疑是想将现在DeepResearch的功能更近一步，剑指AI科学家、甚至诺奖级AI。

那么AI搞科研的水平目前咋样呢？

OpenAI也用这个最新基准测试了一把目前最顶尖的LLM，结果就是——人类并没有一败涂地！“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集，结果发现模型的性能尚未超过人类基线。”

有趣的是，在OpenAI家的基准上，表现最好的居然是死对头Anthropic。使用开源 scaffolding 框架的 Claude 3.5 Sonnet（新版），其平均复现得分为 21.0%。

OpenAI指出，智能体的失败显示出当前模型在执行长时间、多步骤任务上的弱点。尽管它们能规划多步骤计划、写出流程，却很难真正一步步执行这些计划。

OpenAI已经开源PaperBench代码，旨在推动未来对 AI 智能体工程能力的研究：

开源地址：

https://github.com/openai/preparedness/tree/main/project/paperbench

论文阅读：

https://openai.com/index/paperbench/

那么，我们来看看PaperBench究竟指明了Agent进化的那些方向，又是如何构成的？

1.PaperBench层级评分树：包含 8,316可单独评分的子任务

为实现客观评估智能体能力，OpenAI整了一套“套娃式”的评分标准。

将每个复现任务按层次细分为多个小任务，并配有明确的评分标准。整个 PaperBench 共包含 8,316 个可单独评分的子任务。这些评分标准专业到是由OpenAI成员和每篇 ICML 论文的作者共同开发，那真的是很权威了。

那怎么能方便地给每个智能体评分呢？——外包给AI，OpenAI开发了一个基于大语言模型（LLM）的自动评分系统，AI评估AI。

然后又套娃了一把：OpenAI又另外构建了一个专门的评分基准来评估该评分系统本身的性能，验证下这个 LLM 评委到底靠不靠谱。

我们来看一下这个层级树具体如何为AI打分：

图片

层级结构说明：

顶层节点（例如图中最上方 “.55”）表示某个大的复现目标，比如“成功实现某个算法”。
中间节点表示这个目标的子目标，比如“能正确实现 Transformer 的结构”。
底层叶子节点（蓝色或红色圆圈）是可以直接打分的最小任务单元，比如“实现了 Attention 模块”、“设置了正确的超参数”等。

图中右边的文字说明：

每一层越往下，要求越具体（finer granularity）。
所有的叶子节点都由评审（LLM）逐个打分（1 表示通过，0 表示失败）。
每个子任务都有一个权重（灰色数字），最终通过加权平均把得分向上传递，得出总得分。

以"测试时模型自适应"论文为例，其评分树结构如下：

图源：知乎@北方的郎

2.智能体搞科研：被发1000美元的OpenAI API额度，和一个工具箱

在OpenAI的论文中提到了测试环境：每个智能体都在一个 Ubuntu 24.04 的 Docker 容器中运行，该容器配备了一块 A10 GPU。

智能体在容器内有一个本地工作目录，其中包含：

论文的 PDF 和 Markdown 格式版本，
补充材料（addendum），
以及一份指令文本文件。

Docker容器可以访问互联网，方便智能体：

下载依赖包，
浏览网页查找资料等。

还为智能体提供了：

HuggingFace 和 OpenAI 的 API key，
每个 key 预装了 1000 美元额度，用于智能体在运行过程中调用这些服务（例如，如果某篇论文需要用到 OpenAI 的微调 API 来运行实验）。

此外，OpenAI还使用了一个基于 Inspect AI 基础智能体的简单智能体脚手架，称为 BasicAgent，并用 nanoeval 来调度运行。

这个脚手架会循环调用各种工具，直到模型选择自行终止，或时间用完为止。

在运行过程中，智能体还获得了一个原始工具箱，可以调用几种工具：

一个 Bash shell 命令执行工具，
一个 Python 代码执行工具，
一个网页浏览器工具，
一个分页文件阅读器（用于阅读长文档）。

3.人机对照：AI在前24小时表现优于人类，然后被反超

我们先来看看AI对战的结果：

OpenAI在所有 20 篇论文上评估了以下模型，每篇论文运行 3 次：GPT-4o、 o1、 o3-mini、 DeepSeek-R1、 Claude 3.5 Sonnet（新版）、 Gemini 2.0 Flash参与了这次竞赛。

OpenAI还报告说，原本也想评估 Claude 3.7 Sonnet，但由于 Anthropic API 的调用限制，未能完成实验。小编想，如果测成了Anthropic的评分可能更高？

来看一下这个榜单，其中Claude 3.5 Sonnet 表现最亮眼，得分 21.0%；R1的表现也算不错，在其中位列第三名。

图片

通过手动查看了多个智能体的运行日志，OpenAI发现：

智能体经常偷懒摆烂：除了 Claude 3.5 Sonnet 外，其他模型经常提前结束任务，说要么“已经完成了复现”，要么“遇到了无法解决的问题”。
策略不合理：所有模型都没有制定出在有限时间内复现论文的合理策略。
工具调用有问题：o3-mini 经常在工具使用上失败。（这也是o3-mini惨败的重要原因，只能动脑不能动手）

再来看这个基准上的人机对战结果：

图片

虽然人类三小时后取胜了，但是看看OpenAI招募的测试员，还是感觉一阵冷汗了：参与和顶尖智能体PK的 8 个人类，均为正在攻读或已完成机器学习博士（PhD）的人来构建人类基线（human baseline）。（注：他们来自伯克利、剑桥、卡内基梅隆、哥伦比亚、康奈尔、普渡、维也纳理工、麻省大学阿默斯特）

这次只在 4 篇论文上建立人类基线。每篇论文安排 3 次独立的复现实验，每次由参与者中最有信心复现该论文的人来执行。

与此同时，OpenAI也对 o1 模型（使用 IterativeAgent）进行了一个 36 小时扩展实验，并在第 1、3、6、12、36 小时分别保存快照。

我们将这个 o1 的 36 小时版本与人类的表现随时间变化进行了对比。发现：

在复现初期，o1 模型表现超过人类基线；
但在 24 小时后，人类的表现开始反超 AI。

这一趋势与 Wijk 等人（2024）以前的研究一致：AI 初期输出快、人类后劲更强。

特别值得注意的是，o1 的得分在第一小时后几乎就停滞了，说明它虽然能迅速产出大量代码，但难以在更长时间内有效策略性地优化方案。

相比之下，人类在初期得分提升缓慢，可能是因为他们花时间认真理解论文内容。

4.写在最后：智能体离“又好又便宜”还差很远

OpenAI 的 PaperBench，像是一场酣畅淋漓的机器学习界“神仙打架”——AI 和顶尖人类选手打得有来有回，而最终人类的反超，也像是武侠电影结尾中的神来一笔。

这次“AI 智能体 vs 满级 PhD 工程师”的对决，既展现了智能体的潜力，也提醒我们：真正的科研复现，还远不只是“写出代码”这么简单。

而另一方面，智能体也远不便宜。就在上周，负责维护 ARC-AGI 的 Arc Prize 基金会更新了 o3 的计算成本：该机构最初估计，在测试中表现最好的 o3 配置（即 o3 high）解决一道 ARC-AGI 题目的成本约为 3,000 美元。最近已经更正到高达 30,000 美元。而此前OpenAI 也被外媒曝出可能会为某些 AI Agent 收取每月 2 万美元的企业级费用。更让人警醒的是，o3 high 为了完美答对一道题，平均尝试了 1024 次。

当下的 AI 模型也许足够强，但想高效、可控地替代人类，还没那么快。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

OpenAI更新o3-mini模型，展示了给出答案的 “思维链”

近日，OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后，进行了重大更新，改变了 o3-mini 的回应方式。现在，这款模型不仅能够回答用户的问题，还能展示其思考过程，为用户提供更多透明度。这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步，使得 AI 工具的使用变得更加人性化。

2/7/2025 2:40:00 PM

AI在线