编辑 | 李美涵
出品 | 51CTO技术栈(微信号:blog51cto)
深夜,OpenAI再次发力Agent领域,开源了一个全新的AI Agent评测基准—— PaperBench。
这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。
图片
看得出,OpenAI新的基准测试PaperBench,无疑是想将现在DeepResearch的功能更近一步,剑指AI科学家、甚至诺奖级AI。
那么AI搞科研的水平目前咋样呢?
OpenAI也用这个最新基准测试了一把目前最顶尖的LLM,结果就是——人类并没有一败涂地!“顶尖的“人工智能博士”尝试了 PaperBench 的一个子集,结果发现模型的性能尚未超过人类基线。”
有趣的是,在OpenAI家的基准上,表现最好的居然是死对头Anthropic。使用开源 scaffolding 框架的 Claude 3.5 Sonnet(新版),其平均复现得分为 21.0%。
OpenAI指出,智能体的失败显示出当前模型在执行 长时间、多步骤任务 上的弱点。尽管它们能规划多步骤计划、写出流程,却很难真正一步步执行这些计划。
OpenAI已经开源PaperBench代码,旨在推动未来对 AI 智能体工程能力的研究:
开源地址:
https://github.com/openai/preparedness/tree/main/project/paperbench
论文阅读:
https://openai.com/index/paperbench/
那么,我们来看看PaperBench究竟指明了Agent进化的那些方向,又是如何构成的?
1.PaperBench层级评分树:包含 8,316可单独评分的子任务
为实现客观评估智能体能力,OpenAI整了一套“套娃式”的评分标准。
将每个复现任务按层次细分为多个小任务,并配有明确的评分标准。整个 PaperBench 共包含 8,316 个可单独评分的子任务。这些评分标准专业到是由OpenAI成员和每篇 ICML 论文的作者共同开发,那真的是很权威了。
那怎么能方便地给每个智能体评分呢?——外包给AI,OpenAI开发了一个基于大语言模型(LLM)的自动评分系统,AI评估AI。
然后又套娃了一把:OpenAI又另外构建了一个专门的评分基准来评估该评分系统本身的性能,验证下这个 LLM 评委到底靠不靠谱。
我们来看一下这个层级树具体如何为AI打分:
图片
层级结构说明:
- 顶层节点(例如图中最上方 “.55”) 表示某个大的复现目标,比如“成功实现某个算法”。
- 中间节点 表示这个目标的子目标,比如“能正确实现 Transformer 的结构”。
- 底层叶子节点(蓝色或红色圆圈) 是可以直接打分的最小任务单元,比如“实现了 Attention 模块”、“设置了正确的超参数”等。
图中右边的文字说明:
- 每一层越往下,要求越具体(finer granularity)。
- 所有的叶子节点都由评审(LLM)逐个打分(1 表示通过,0 表示失败)。
- 每个子任务都有一个权重(灰色数字),最终通过加权平均把得分向上传递,得出总得分。
以"测试时模型自适应"论文为例,其评分树结构如下:
图源:知乎@北方的郎
2.智能体搞科研:被发1000美元的OpenAI API额度,和一个工具箱
在OpenAI的论文中提到了测试环境:每个智能体都在一个 Ubuntu 24.04 的 Docker 容器中运行,该容器配备了一块 A10 GPU。
智能体在容器内有一个本地工作目录,其中包含:
- 论文的 PDF 和 Markdown 格式版本,
- 补充材料(addendum),
- 以及一份指令文本文件。
Docker容器可以访问互联网,方便智能体:
- 下载依赖包,
- 浏览网页查找资料等。
还为智能体提供了:
- HuggingFace 和 OpenAI 的 API key,
- 每个 key 预装了 1000 美元额度,用于智能体在运行过程中调用这些服务(例如,如果某篇论文需要用到 OpenAI 的微调 API 来运行实验)。
此外,OpenAI还使用了一个基于 Inspect AI 基础智能体 的简单智能体脚手架,称为 BasicAgent,并用 nanoeval 来调度运行。
这个脚手架会循环调用各种工具,直到模型选择自行终止,或时间用完为止。
在运行过程中,智能体还获得了一个原始工具箱,可以调用几种工具:
- 一个 Bash shell 命令执行工具,
- 一个 Python 代码执行工具,
- 一个网页浏览器工具,
- 一个分页文件阅读器(用于阅读长文档)。
3.人机对照:AI在前24小时表现优于人类,然后被反超
我们先来看看AI对战的结果:
OpenAI在所有 20 篇论文上评估了以下模型,每篇论文运行 3 次:GPT-4o、 o1、 o3-mini、 DeepSeek-R1、 Claude 3.5 Sonnet(新版)、 Gemini 2.0 Flash参与了这次竞赛。
OpenAI还报告说,原本也想评估 Claude 3.7 Sonnet,但由于 Anthropic API 的调用限制,未能完成实验。小编想,如果测成了Anthropic的评分可能更高?
来看一下这个榜单,其中Claude 3.5 Sonnet 表现最亮眼,得分 21.0%;R1的表现也算不错,在其中位列第三名。
图片
通过手动查看了多个智能体的运行日志,OpenAI发现:
- 智能体经常偷懒摆烂:除了 Claude 3.5 Sonnet 外,其他模型经常提前结束任务,说要么“已经完成了复现”,要么“遇到了无法解决的问题”。
- 策略不合理:所有模型都没有制定出 在有限时间内复现论文的合理策略。
- 工具调用有问题:o3-mini 经常在工具使用上失败。(这也是o3-mini惨败的重要原因,只能动脑不能动手)
再来看这个基准上的人机对战结果:
图片
虽然人类三小时后取胜了,但是看看OpenAI招募的测试员,还是感觉一阵冷汗了:参与和顶尖智能体PK的 8 个人类,均为正在攻读或已完成机器学习博士(PhD)的人来构建人类基线(human baseline)。(注:他们来自伯克利、剑桥、卡内基梅隆、哥伦比亚、康奈尔、普渡、维也纳理工、麻省大学阿默斯特)
这次只在 4 篇论文上建立人类基线。每篇论文安排 3 次独立的复现实验,每次由参与者中最有信心复现该论文的人来执行。
与此同时,OpenAI也对 o1 模型(使用 IterativeAgent)进行了一个 36 小时扩展实验,并在第 1、3、6、12、36 小时分别保存快照。
我们将这个 o1 的 36 小时版本与人类的表现随时间变化进行了对比。发现:
- 在复现初期,o1 模型表现超过人类基线;
- 但在 24 小时后,人类的表现开始反超 AI。
这一趋势与 Wijk 等人(2024)以前的研究一致:AI 初期输出快、人类后劲更强。
特别值得注意的是,o1 的得分在第一小时后几乎就停滞了,说明它虽然能迅速产出大量代码,但难以在更长时间内有效策略性地优化方案。
相比之下,人类在初期得分提升缓慢,可能是因为他们花时间认真理解论文内容。
4.写在最后:智能体离“又好又便宜”还差很远
OpenAI 的 PaperBench,像是一场酣畅淋漓的机器学习界“神仙打架”——AI 和顶尖人类选手打得有来有回,而最终人类的反超,也像是武侠电影结尾中的神来一笔。
这次“AI 智能体 vs 满级 PhD 工程师”的对决,既展现了智能体的潜力,也提醒我们:真正的科研复现,还远不只是“写出代码”这么简单。
而另一方面,智能体也远不便宜。就在上周,负责维护 ARC-AGI 的 Arc Prize 基金会更新了 o3 的计算成本:该机构最初估计,在测试中表现最好的 o3 配置(即 o3 high)解决一道 ARC-AGI 题目的成本约为 3,000 美元。最近已经更正到高达 30,000 美元。而此前OpenAI 也被外媒曝出可能会为某些 AI Agent 收取每月 2 万美元的企业级费用。更让人警醒的是,o3 high 为了完美答对一道题,平均尝试了 1024 次。
当下的 AI 模型也许足够强,但想高效、可控地替代人类,还没那么快。
想了解更多AIGC的内容,请访问:
51CTO AI.x社区
https://www.51cto.com/aigc/