人类赢了!OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类,上演机器学习届“神仙打架”;R1排第三,Claude夺冠

编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)深夜,OpenAI再次发力Agent领域,开源了一个全新的AI Agent评测基准—— PaperBench。 这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。 智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。

编辑 | 李美涵

出品 | 51CTO技术栈(微信号:blog51cto)

深夜,OpenAI再次发力Agent领域,开源了一个全新的AI Agent评测基准—— PaperBench。

这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。

图片图片

看得出,OpenAI新的基准测试PaperBench,无疑是想将现在DeepResearch的功能更近一步,剑指AI科学家、甚至诺奖级AI。

那么AI搞科研的水平目前咋样呢?

OpenAI也用这个最新基准测试了一把目前最顶尖的LLM,结果就是——人类并没有一败涂地!“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集,结果发现模型的性能尚未超过人类基线。”

有趣的是,在OpenAI家的基准上,表现最好的居然是死对头Anthropic。使用开源 scaffolding 框架的 Claude 3.5 Sonnet(新版),其平均复现得分为 21.0%。

OpenAI指出,智能体的失败显示出当前模型在执行 长时间、多步骤任务 上的弱点。尽管它们能规划多步骤计划、写出流程,却很难真正一步步执行这些计划。

OpenAI已经开源PaperBench代码,旨在推动未来对 AI 智能体工程能力的研究:

开源地址:

https://github.com/openai/preparedness/tree/main/project/paperbench

论文阅读:

https://openai.com/index/paperbench/

那么,我们来看看PaperBench究竟指明了Agent进化的那些方向,又是如何构成的?

1.PaperBench层级评分树:包含 8,316可单独评分的子任务

为实现客观评估智能体能力,OpenAI整了一套“套娃式”的评分标准。

将每个复现任务按层次细分为多个小任务,并配有明确的评分标准。整个 PaperBench 共包含 8,316 个可单独评分的子任务。这些评分标准专业到是由OpenAI成员和每篇 ICML 论文的作者共同开发,那真的是很权威了。

那怎么能方便地给每个智能体评分呢?——外包给AI,OpenAI开发了一个基于大语言模型(LLM)的自动评分系统,AI评估AI。

然后又套娃了一把:OpenAI又另外构建了一个专门的评分基准来评估该评分系统本身的性能,验证下这个 LLM 评委到底靠不靠谱。

我们来看一下这个层级树具体如何为AI打分:

图片图片

 层级结构说明:
  • 顶层节点(例如图中最上方 “.55”) 表示某个大的复现目标,比如“成功实现某个算法”。
  • 中间节点 表示这个目标的子目标,比如“能正确实现 Transformer 的结构”。
  • 底层叶子节点(蓝色或红色圆圈) 是可以直接打分的最小任务单元,比如“实现了 Attention 模块”、“设置了正确的超参数”等。

图中右边的文字说明:

  • 每一层越往下,要求越具体(finer granularity)。
  • 所有的叶子节点都由评审(LLM)逐个打分(1 表示通过,0 表示失败)。
  • 每个子任务都有一个权重(灰色数字),最终通过加权平均把得分向上传递,得出总得分。

以"测试时模型自适应"论文为例,其评分树结构如下:

图源:知乎@北方的郎图源:知乎@北方的郎

2.智能体搞科研:被发1000美元的OpenAI API额度,和一个工具箱

在OpenAI的论文中提到了测试环境:每个智能体都在一个 Ubuntu 24.04 的 Docker 容器中运行,该容器配备了一块 A10 GPU。

智能体在容器内有一个本地工作目录,其中包含:

  • 论文的 PDF 和 Markdown 格式版本,
  • 补充材料(addendum),
  • 以及一份指令文本文件。

Docker容器可以访问互联网,方便智能体:

  • 下载依赖包,
  • 浏览网页查找资料等。

还为智能体提供了:

  • HuggingFace 和 OpenAI 的 API key,
  • 每个 key 预装了 1000 美元额度,用于智能体在运行过程中调用这些服务(例如,如果某篇论文需要用到 OpenAI 的微调 API 来运行实验)。

此外,OpenAI还使用了一个基于 Inspect AI 基础智能体 的简单智能体脚手架,称为 BasicAgent,并用 nanoeval 来调度运行。

这个脚手架会循环调用各种工具,直到模型选择自行终止,或时间用完为止。

在运行过程中,智能体还获得了一个原始工具箱,可以调用几种工具:

  • 一个 Bash shell 命令执行工具,
  • 一个 Python 代码执行工具,
  • 一个网页浏览器工具,
  • 一个分页文件阅读器(用于阅读长文档)。

3.人机对照:AI在前24小时表现优于人类,然后被反超

我们先来看看AI对战的结果:

OpenAI在所有 20 篇论文上评估了以下模型,每篇论文运行 3 次:GPT-4o、 o1、  o3-mini、  DeepSeek-R1、  Claude 3.5 Sonnet(新版)、 Gemini 2.0 Flash参与了这次竞赛。

OpenAI还报告说,原本也想评估 Claude 3.7 Sonnet,但由于 Anthropic API 的调用限制,未能完成实验。小编想,如果测成了Anthropic的评分可能更高?

来看一下这个榜单,其中Claude 3.5 Sonnet 表现最亮眼,得分 21.0%;R1的表现也算不错,在其中位列第三名。

图片图片

通过手动查看了多个智能体的运行日志,OpenAI发现:

  • 智能体经常偷懒摆烂:除了 Claude 3.5 Sonnet 外,其他模型经常提前结束任务,说要么“已经完成了复现”,要么“遇到了无法解决的问题”。
  • 策略不合理:所有模型都没有制定出 在有限时间内复现论文的合理策略。
  • 工具调用有问题:o3-mini 经常在工具使用上失败。(这也是o3-mini惨败的重要原因,只能动脑不能动手)

再来看这个基准上的人机对战结果:

图片图片

虽然人类三小时后取胜了,但是看看OpenAI招募的测试员,还是感觉一阵冷汗了:参与和顶尖智能体PK的 8 个人类,均为正在攻读或已完成机器学习博士(PhD)的人来构建人类基线(human baseline)。(注:他们来自伯克利、剑桥、卡内基梅隆、哥伦比亚、康奈尔、普渡、维也纳理工、麻省大学阿默斯特)

这次只在 4 篇论文上建立人类基线。每篇论文安排 3 次独立的复现实验,每次由参与者中最有信心复现该论文的人来执行。

与此同时,OpenAI也对 o1 模型(使用 IterativeAgent)进行了一个 36 小时扩展实验,并在第 1、3、6、12、36 小时分别保存快照。

我们将这个 o1 的 36 小时版本与人类的表现随时间变化进行了对比。发现:

  • 在复现初期,o1 模型表现超过人类基线;
  • 但在 24 小时后,人类的表现开始反超 AI。

这一趋势与 Wijk 等人(2024)以前的研究一致:AI 初期输出快、人类后劲更强。

特别值得注意的是,o1 的得分在第一小时后几乎就停滞了,说明它虽然能迅速产出大量代码,但难以在更长时间内有效策略性地优化方案。

相比之下,人类在初期得分提升缓慢,可能是因为他们花时间认真理解论文内容。

4.写在最后:智能体离“又好又便宜”还差很远

OpenAI 的 PaperBench,像是一场酣畅淋漓的机器学习界“神仙打架”——AI 和顶尖人类选手打得有来有回,而最终人类的反超,也像是武侠电影结尾中的神来一笔。

这次“AI 智能体 vs 满级 PhD 工程师”的对决,既展现了智能体的潜力,也提醒我们:真正的科研复现,还远不只是“写出代码”这么简单。

而另一方面,智能体也远不便宜。就在上周,负责维护 ARC-AGI 的 Arc Prize 基金会更新了 o3 的计算成本:该机构最初估计,在测试中表现最好的 o3 配置(即 o3 high)解决一道 ARC-AGI 题目的成本约为 3,000 美元。最近已经更正到高达 30,000 美元。而此前OpenAI 也被外媒曝出可能会为某些 AI Agent 收取每月 2 万美元的企业级费用。更让人警醒的是,o3 high 为了完美答对一道题,平均尝试了 1024 次。

当下的 AI 模型也许足够强,但想高效、可控地替代人类,还没那么快。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

相关资讯

OpenAI更新o3-mini模型,展示了给出答案的 “思维链”

近日,OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后,进行了重大更新,改变了 o3-mini 的回应方式。 现在,这款模型不仅能够回答用户的问题,还能展示其思考过程,为用户提供更多透明度。 这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步,使得 AI 工具的使用变得更加人性化。

o3智商高达157?每13333人中才有一个这么高,网友:编码分数无意义

从韦氏智商测试来看,如果 o3 的 IQ 真这么高,则称得上非常优秀。 OpenAI o3 的智商(IQ)竟然已经这么高了吗今天,Reddit 上一则热帖宣称「OpenAI o3 的 IQ 估计为 157」,并放出了一张数据图。 这意味着什么呢?

OpenAI o3 模型运行成本估算大幅上调:单次任务从 3000 美元涨至 3 万美元

Arc Prize Foundation 大幅上调 OpenAI o3 模型运行成本估算,从 3000 美元涨至 3 万美元。高昂成本凸显 AI 模型特定任务的高成本难题,控制成本成行业挑战。##AI模型成本##