沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

o1 preview问世3个月后，满血版的o1 Pro终于在上周以每月200美元的身价正式上线，奥特曼号称其为「当今世界上最智能的模型」。所以，这个正式的o1 Pro究竟强大到了什么程度？可以肯定的是，它远远不是一个走到AGI终点的灭霸，但这是scaling law之后的又一个里程碑吗？

o1 preview问世3个月后，满血版的o1 Pro终于在上周以每月200美元的身价正式上线，奥特曼号称其为「当今世界上最智能的模型」。

所以，这个正式的o1 Pro究竟强大到了什么程度？

可以肯定的是，它远远不是一个走到AGI终点的灭霸，但这是scaling law之后的又一个里程碑吗？代表着未来LLM的发展方向吗？能像OpenAI研究院Jason Wei所说的，足以成为一个「传奇」吗？

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

就在o1 Pro发布的当口，沃顿商学院副教授、GenAI实验室联合主任Ethan Mollick提起了这篇自己3个月前写就的博客，可以说既是模型发布前的「神预言」，也是一盆有理有据、恰到好处的「冷水」。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

Ethan Mollick表示，早在9月份我们第一次见到o1 preview时，他就写下了这篇博客文章，详解这个模型对当下和未来都意味着什么。模型的质量很重要，但更为重要的是，了解模型对人工智能未来的潜在意义。

下面，我们就把这篇文章当成时间传送门，将3个月前横空出世的o1 preview和处在性价比漩涡中的o1 Pro放在一起比较，或许可以给当下提供更多启发。

「草莓」大显身手

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

一段时间之前，我已经接触到了传闻沸沸扬扬的被称为「草莓」的增强版推理系统，现在OpenAI将其发布了，我也终于可以分享一些想法。

这个模型的确让人惊讶，但能力仍然有限，但最重要的是，它的出现指明了AI的发展方向。

新模型被称为o1-preview（此处Mollick狠狠吐槽OpenAI等一众AI公司在命名上非常糟糕），让AI在解决问题之前先「思考」一个问题，因此能够解决需要规划和迭代的困难问题。

根据这张我们都熟悉的基准结果图，o1-preview在数学和科学领域尤为强悍，对于极其困难的物理问题，甚至可以击败博士级别的人类专家。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

但需要明确的是，o1-preview并不是在所有方面都有提升，比如在写作方面就没有比GPT-4o更强；但对于需要计划的任务来说，变化就相当大了。

由于很难评估所有这些复杂任务的输出，因此要展示「Strawberry」模型的提升（以及一些限制），也许最简单直观的方法就是游戏——比如填字游戏（crossword puzzle）。

不要小瞧了填字游戏，这是一个下限很低但上限也很高的项目，最难的填字游戏完全可以达到地狱模式，而且非常考验逻辑推理能力。

电影《模仿游戏》中就有这样的情节：二战期间，AI之父Alan Turing担任英国密码破译项目Enigma的负责人，为了招揽全国在数学和密码学方面的才俊，他就在报纸上登出了一个填字游戏作为报名测试，甚至最后一关的现场考核也是要求a在规定时间内做出填字游戏题。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

电影《模仿游戏》剧照

由于o1 preview还无法从图片中读取文字，因此Mollick只能自己手动打出来喂给模型。如下图所示，这是一个相当具有挑战性的难题，而且，Mollick只挑选了18条线索中的8条提供给o1。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

填字游戏对于LLM来说尤其困难，因为需要迭代解决：尝试并否决掉许多相互关联的答案——这是之前的大模型无法做到的，因为他们一次只能在答案中添加一个token/单词。

如下图所示，如果给Claude提供相应的线索，它首先给出序号1的答案（它猜测是STAR，但这个答案是错误的），然后在此基础上尝试解答其余部分。

然而，由于第一颗扣子就扣错了，Claude永远都无法接近正确答案。如果没有规划流程，它就只能向前冲，并不知道自己前进的方向是对是错。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

Claude的尝试

但面对相同的问题时，「草莓」时会怎么做呢？

首先，它会开始「思考」，这个过程持续了整整108秒（但大多数问题都能在更短的时间内解决）。

而且，o1思考时并不是一声不吭，而是会「自言自语」，输出自己的「思维链」让你看到它的想法。下面是其中的一个示例（还有更多内容未展示出来），而且这些想法非常有启发性，值得你花点时间阅读。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

在这个过程中，「草莓」反复迭代，不断创造想法并否决其中不可行的部分，结果做得很好，令人印象深刻。

但值得注意的是，o1-preview似乎仍然基于GPT-4o，而且有时对于语言的理解过于拘泥于字面意思。

比如，下图右侧中1 Down的答案是「Galaxy cluster」，这显然并不是指真正的星系，而是Samsung Galaxy手机——「APPS」。

AI并没有猜到这层意思，因此不断尝试各种星系团的名称，然而确定Down 1是COMA（是一个真实的星系团），可想而知，其余的结果也不正确。虽然不完全符合规则，但也相当有创意。

但公平来讲，Mollick本人也没有猜到这层意思。如果把「Down 1是APPS」这个线索提供给o1，可以看到模型又开始在接下来的1分钟内快速迭代想法（下图左侧），并正确推理出了Across 1的答案是「ACTS」。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

这里是o1在一条线索的基础上给出的最终答案，完全正确，而且解决了硬引用，尽管它幻想出了一条不存在的新线索。相比之下，身为名牌大学副教授的Ethan Mollick甚至都没能接近这个正确答案。

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

至此我们可以发现，o1-preview做了一些没有Strawberry就不可能完成的事情，但它仍然不是完美无缺的：错误和幻觉仍然会发生，而且仍然受限于底层模型GPT-4o的「智能」的限制。

虽然Claude有很多优点，但相比之下，o1在复杂规划或解题方面远远胜出，代表了这些领域的巨大飞跃。

从协同智能到…

o1-preview意味着我们正面临人工智能范式的改变。「规划」是智能体的一种表现形式，人工智能可以在没有人类帮助的情况下自行得出结论并解决问题。

可以从上面的例子中看到，AI完成了太多繁重的思考工作，并产生了完整的结果，人类作为合作伙伴的角色反而被削弱了，整个过程的主体是AI完成了自己的工作并给出答案。

当然，我们可以筛选推理思维链的输出来发现AI犯了哪些错误，但Ethan Mollick的感觉是，他作为布置任务的人，和AI的输出内容之间没有什么联系，也没有在引导解决方案的走向上发挥重要作用。这不一定是坏事，但和之前不同。

随着这些系统不断升级并逐渐接近真正的自主智能体，我们需要弄清如何与其保持人类在保持同步——既能捕获错误，又要及时察觉到我们试图解决的问题。

o1-preview正在缓缓拉开帷幕，解锁我们尚未见到的AI能力，尽管它目前还存在局限性。这给我们留下了一个关键问题：随着AI的发展，我们如何进化人类与人工智能的合作？这是o1-preview目前还无法解决的问题。

{{userData.name}}已认证

沃顿商学院教授发文解析o1：能力仍有短板，「人机协同智能」或成AGI最重要难题

「草莓」大显身手

从协同智能到…

用上AI，升职提前4年？清华等分析6790万篇论文：科学界收缩，不用AI的领域无人问津

美媒：一些中国大模型已经追平甚至超越美国产品

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则