o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

应用
9月28日
编辑

清源

o1-preview 终于赢过了 mini 一次！亚利桑那州立大学的最新研究表明，o1-preview 在规划任务上，表现显著优于 o1-mini。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。要知道之前，OpenAI 自己人也发了一张图，显示 preview 论性能比不过满血版，论经济性又不如 mini，处于一个十分尴尬的地位。作者在推文中表示，尽管存在可保证性和成本问题，但仅针对 CoT 而言，o1 已经超越了大模型的“近似检索”性质，提升到了“近似推理”

o1-preview 终于赢过了 mini 一次！亚利桑那州立大学的最新研究表明，o1-preview 在规划任务上，表现显著优于 o1-mini。

相比于传统模型的优势更是碾压级别，在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

要知道之前，OpenAI 自己人也发了一张图，显示 preview 论性能比不过满血版，论经济性又不如 mini，处于一个十分尴尬的地位。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

作者在推文中表示，尽管存在可保证性和成本问题，但仅针对 CoT 而言，o1 已经超越了大模型的“近似检索”性质，提升到了“近似推理”层次。

并且在论文中，o1 全程被称作 LRM（Large Reasoning Model，大型推理模型），而非一般大型语言模型的 LLM。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

o1 团队的核心成员 Noam Brown 也转发了这项研究，顺便给 o1-preview 打了个 call。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

还有网友翻出了隔壁 Meta 的 LeCun 半个多月前的推文，当时 LeCun 说大模型没有规划能力，结果现在 OpenAI 就带着 o1 来踢馆了。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

用“搭积木”测试大模型

为了评估 o1 系列模型的规划能力，作者使用了 PlanBench 评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名 —— 共同一作 Karthik Valmeekam，以及他的导师 Subbarao Kambhampati。

PlanBench 专门为评估大模型规划能力而设计，任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验，作者使用了其中来自于国际规划竞赛（IPC）的 Blocksworld 和其变体。

此类问题涉及在桌子上堆叠积木块，目标是从一个初始状态，重新排列到目标配置。

木块用不同的颜色标识，一次只能移动一个积木块，且只能移动每一堆中顶部的积木块，被拿起的积木块也只能放在顶部或直接放在桌子上。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

变体 Mystery Blocksworld 则是在 Blockworlds 的基础上加入混淆机制，用一些毫不相干的词语来代替操作中的动作。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

在此基础之上，还有更为复杂的全随机变体，指令进一步从其他英文单词变成了无意义的字符串。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

在 o1 之前，Blockworlds 上的 SOTA 模型是 Llama3.1-405B，成绩为达到 62.6%，而在 Mystery Blockworlds 上，没有任何模型的成绩能超过 5%。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

o1-preview 超强规划

o1 这边的测试结果显示，preview 相比 mini，成绩优势十分明显。

在 Blockworlds 任务上，preview 版准确率达 98%，而 mini 只有 56.6%，表现还不如 llama。

当然加入了混淆之后，mini 相比于 llama 也显示出了一些优势 ——

在零样本配置下，preview 版的准确率超过了一半，比 llama 的 4.3% 高出了 11 倍多；mini 版也达到了 19.1%，比 llama 高 3.4 倍。

最后在全随机版本下，o1-preview 还能拥有 37.3% 的准确率。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

以上结果显示出了 o1 系列模型，特别是 o1-preview 的超强规划能力，但是不足之处也十分明显。

一是随着规划长度的增加，模型的性能也会迅速下降，即使对于未混淆的 Blockworlds 来说也同样如此。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

另外，Blockworlds 系列问题并非全部可解，作者发现 o1 在识别不可解问题上的准确率依然存在不足。

对于未混淆版本准确率只有 27%，但没有误判为不可解的情况；对于全随机版本则只有 16%，另外还有 11.5% 的概率将可解问题误判为不可解。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

甚至作者还发现，o1 有时也会狡辩，提出令人信服的合理理由，让人们相信其错误答案。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

在模型本身的性能之外，成本和时间消耗也是一个重要考量，相比于传统大模型，o1-mini 的成本相比 GPT4-Turbo 直接翻番，preview 更是高出了数量级。

o1 规划能力首测：已超越语言模型范畴，preview 终于赢 mini 一回

那么，如果你是开发者，会愿意为了 o1 的高性能付出更多的成本吗？欢迎评论区交流。

论文地址：

https://arxiv.org/abs/2409.13373

参考链接：

https://x.com/rao2z/status/1838245261950509170

本文来自微信公众号：量子位（ID：QbitAI），作者：克小西

给TA打赏

共{{data.count}}人

人已打赏

Blockworlds Mini o1 preview 模型

三星预言 2025 年将掀起 AI 普及浪潮，重塑消费者日常生活方式

2024-9-28 14:48:44

Science 子刊封面：500 年前拉斐尔怎么作画，AI 看一眼就知道

2024-9-28 15:21:09

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

关于LLM-as-a-judge范式，终于有综述讲明白了
12月3日
TOP3

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等
12月3日
李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”
12月3日
ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则
12月3日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部