OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。OpenAI o1 模型成绩在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA

来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。

PlanBench 基准简介

PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。

OpenAI o1 模型成绩

在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。

在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而 OpenAI 的 o1 模型准确率达到 52.8%。AI在线附上报告图片如下:

OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

研究人员还测试了一种新的随机变体,以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中,O1 的准确率降至 37.3%,但仍远远超过了得分接近零的其它模型。

规划步骤越多,性能下降越明显

随着任务越来越复杂,o1 的表现也急剧下降。在需要 20 到 40 个规划步骤的问题上,o1 在较简单测试中的准确率从 97.8% 下降到只有 23.63%。

该模型在识别无法解决的任务方面也很吃力,只有 27% 的时间能够正确识别。在 54% 的情况下,它错误地生成了完整但不可能完成的计划。

“Quantum improvement”,但并非突破性

虽然 o1 在基准性能上实现了“量子改进”(Quantum improvement),但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法,可以在更短的计算时间内实现完美的准确性。

研究还强调了 o1 的高资源消耗,运行这些测试需要花费近 1900 美元,而经典算法在标准计算机上运行几乎不需要任何成本。

研究人员强调,对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明,虽然像 o1 这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力还不够强大。

OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

由媒体 The Decoder 使用 Midjourney 生成

相关资讯

LLM仍然不能规划,刷屏的OpenAI o1远未达到饱和

实验证明,大模型的 System 2 能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对 LLM 是否具有这种规划能力产生了极大的兴趣。最近,OpenAI 发布了 o1 模型,一举创造了很多历史记录。o1 模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比 GPT-4o 有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。那么,o1 模型是否具备上

OpenAI的o1是万金油吗?专家为思维链“泼冷水”!研究发现:这三种任务不适合让AI“想太多”,o1准确率直降36.3%!

出品 | 51CTO技术栈(微信号:blog51cto)别想太多! 这句劝解有一定道理,在很多问题上过度思考反而会适得其反! AI是否也会这样呢?

如何防止我的模型过拟合?这篇文章给出了6大必备方法

正如巴菲特所言:「近似的正确好过精确的错误。」