o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

o1-preview 终于赢过了 mini 一次!亚利桑那州立大学的最新研究表明,o1-preview 在规划任务上,表现显著优于 o1-mini。相比于传统模型的优势更是碾压级别,在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。要知道之前,OpenAI 自己人也发了一张图,显示 preview 论性能比不过满血版,论经济性又不如 mini,处于一个十分尴尬的地位。作者在推文中表示,尽管存在可保证性和成本问题,但仅针对 CoT 而言,o1 已经超越了大模型的“近似检索”性质,提升到了“近似推理”

o1-preview 终于赢过了 mini 一次!亚利桑那州立大学的最新研究表明,o1-preview 在规划任务上,表现显著优于 o1-mini

相比于传统模型的优势更是碾压级别,在超难任务上的准确率比 Llama3.1-405B 高了 11 倍。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

要知道之前,OpenAI 自己人也发了一张图,显示 preview 论性能比不过满血版,论经济性又不如 mini,处于一个十分尴尬的地位。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

作者在推文中表示,尽管存在可保证性和成本问题,但仅针对 CoT 而言,o1 已经超越了大模型的“近似检索”性质,提升到了“近似推理”层次。

并且在论文中,o1 全程被称作 LRM(Large Reasoning Model,大型推理模型),而非一般大型语言模型的 LLM。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

o1 团队的核心成员 Noam Brown 也转发了这项研究,顺便给 o1-preview 打了个 call。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

还有网友翻出了隔壁 Meta 的 LeCun 半个多月前的推文,当时 LeCun 说大模型没有规划能力,结果现在 OpenAI 就带着 o1 来踢馆了。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

用“搭积木”测试大模型

为了评估 o1 系列模型的规划能力,作者使用了 PlanBench 评估基准。

该基准的提出者中也正好包含了本文三名作者中的两名 —— 共同一作 Karthik Valmeekam,以及他的导师 Subbarao Kambhampati。

PlanBench 专门为评估大模型规划能力而设计,任务类型涵盖了计划生成、成本最优规划、计划验证等。

具体到这个实验,作者使用了其中来自于国际规划竞赛(IPC)的 Blocksworld 和其变体。

此类问题涉及在桌子上堆叠积木块,目标是从一个初始状态,重新排列到目标配置。

木块用不同的颜色标识,一次只能移动一个积木块,且只能移动每一堆中顶部的积木块,被拿起的积木块也只能放在顶部或直接放在桌子上。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

变体 Mystery Blocksworld 则是在 Blockworlds 的基础上加入混淆机制,用一些毫不相干的词语来代替操作中的动作。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

在此基础之上,还有更为复杂的全随机变体,指令进一步从其他英文单词变成了无意义的字符串。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

在 o1 之前,Blockworlds 上的 SOTA 模型是 Llama3.1-405B,成绩为达到 62.6%,而在 Mystery Blockworlds 上,没有任何模型的成绩能超过 5%

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

o1-preview 超强规划

o1 这边的测试结果显示,preview 相比 mini,成绩优势十分明显。

在 Blockworlds 任务上,preview 版准确率达 98%,而 mini 只有 56.6%,表现还不如 llama。

当然加入了混淆之后,mini 相比于 llama 也显示出了一些优势 ——

在零样本配置下,preview 版的准确率超过了一半,比 llama 的 4.3% 高出了 11 倍多;mini 版也达到了 19.1%,比 llama 高 3.4 倍。

最后在全随机版本下,o1-preview 还能拥有 37.3% 的准确率。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

以上结果显示出了 o1 系列模型,特别是 o1-preview 的超强规划能力,但是不足之处也十分明显。

一是随着规划长度的增加,模型的性能也会迅速下降,即使对于未混淆的 Blockworlds 来说也同样如此。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

另外,Blockworlds 系列问题并非全部可解,作者发现 o1 在识别不可解问题上的准确率依然存在不足

对于未混淆版本准确率只有 27%,但没有误判为不可解的情况;对于全随机版本则只有 16%,另外还有 11.5% 的概率将可解问题误判为不可解。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

甚至作者还发现,o1 有时也会狡辩,提出令人信服的合理理由,让人们相信其错误答案。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

在模型本身的性能之外,成本和时间消耗也是一个重要考量,相比于传统大模型,o1-mini 的成本相比 GPT4-Turbo 直接翻番,preview 更是高出了数量级。

o1 规划能力首测:已超越语言模型范畴,preview 终于赢 mini 一回

那么,如果你是开发者,会愿意为了 o1 的高性能付出更多的成本吗?欢迎评论区交流。

论文地址:

https://arxiv.org/abs/2409.13373

参考链接:

https://x.com/rao2z/status/1838245261950509170

本文来自微信公众号:量子位(ID:QbitAI),作者:克小西

相关资讯

OpenAI 再成“榜一大哥”:o1-preview AI 模型更轻松驾驭数学、编程等任务

科技媒体 The Decoder 昨日(9 月 19 日)发布博文,报道称在聊天机器人竞技场(Chatbot Arena)上,OpenAI 的新人工智能模型 o1-preview 和 o1-mini 问鼎榜首。聊天机器人竞技场简介聊天机器人竞技场是一个比较人工智能模型的平台,它利用 6000 多个社区评分对新的 OpenAI 系统进行了评估。结果结果显示,o1-preview 和 o1-mini 尤其在数学任务、复杂提示和编程方面表现出色。Lmsys 提供的数学模型优势图表清楚地显示,o1-preview 和 o1

OpenAI o1 全方位 SOTA 登顶 lmsys 排行榜:数学能力碾压 Claude 和谷歌 Gemini 模型,o1-mini 并列第一

o1 模型发布 1 周,lmsys 的 6k 投票就将 o1-preview 送上了排行榜榜首。同时,为了满足大家对模型「IOI 金牌水平」的好奇心,OpenAI 放出了 o1 测评时提交的所有代码。万众瞩目的最新模型 OpenAI o1,终于迎来了 lmsys 竞技场的测评结果。不出意外,o1-preview 在各种领域绝对登顶,超过了最新版的 GPT-4o,在数学、困难提示和编码领域表现出色;而 o1-mini 虽然名字中自带「mini」,但也和最新版的 GPT-4o 并列综合排名第二,困难提示、编码、数学

4o-mini只有8B,o1也才300B!微软论文意外曝光GPT核心机密

微软又把OpenAI的机密泄露了? ? 在论文中明晃晃写着:o1-preview约300B参数,GPT-4o约200B,GPT-4o-mini约8B……英伟达2024年初发布B200时,就摊牌了GPT-4是1.8T MoE也就是1800B,这里微软的数字更精确,为1.76T。