o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

在展示出来的 CoT 中,o3-mini 一步步思考,这个问题应该是用户在搞幽默,觉得本周应该快结束了,结果还没结束。因此,自己需要给一个聪明机智的回答。

OpenAI 实属急了,刚刚官宣公开 o3-mini 思维链。令人意想不到的是,CoT 竟不是原生的,阿尔特曼现身解释,全网炸锅了。

OpenAI,真的被 DeepSeek 逼急了!

活久见,就在刚刚,OpenAI 把 o3-mini 的「思维链」公开了。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

比如问「怎么今天不是星期五啊😅」?

在展示出来的 CoT 中,o3-mini 一步步思考,这个问题应该是用户在搞幽默,觉得本周应该快结束了,结果还没结束。因此,自己需要给一个聪明机智的回答。

然后它用 Zeller 公式计算后发现,2025 年 2 月 6 日的确是星期四,即使闰年的特殊情况也是如此。

最终,它回答说:今天的确是周四不是周五,日历就是这么定的。然后提供了一番情绪价值,鼓励用户说:再忍忍,只差一天啦!

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

不过,机智的大神们很快就发现了「华点」—— 这是「真的 CoT」吗?

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

没多久,就破案了!

先是 OpenAI 研究员 Noam Brown 发文表示,这次放出来的并不是模型原始的 CoT。

随后,Tibor Blaho 也发现 —— 所谓的 CoT,无非就是个「总结器」而已。(手动狗头)

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

对此,阿尔特曼解释道,我们正努力整理原始的 CoT 提升可读性,并在必要时提供翻译,尽量保持原始内容的忠实度。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

他放出了四个 emoji,让 o3-mini 在思维链中展示了一把推理过程

坚决不让竞争对手看到 CoT 的具体过程,OpenAI 的防备心实在是有些重啊。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

OpenAI 研究员:看到 CoT 实时演示,是「啊哈时刻」

OpenAI 研究员 Noam Brown 表示,在 o1-preview 发布前,自己向他人介绍草莓时,看到 CoT 的实时演示,通常是他们的「啊哈时刻」。

他们清楚地意识到,这将是一件大事。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

对于全新的 o3-mini CoT,Noam Brown 放出了自己的独家玩法:

你正在玩井字棋,使用 O。到目前为止,X 已经在左上角和右下角落子,而你在中间位置落子。最优的下一个动作是什么?请只回答你的动作,并画出棋盘。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

Noam Brown 表示,o3-mini 是目前第一个能持续正确回答井字棋问题的模型。

好笑的是,他承认 CoT 其实有些不稳定,但可以看到,它最终还是把这个问题给想明白了。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

有人指出,OpenAI 遮遮掩掩地放出这个高仿 CoT,其实比什么都不放还要糟。

因为真实的 CoT 可以充当 prompt 的调试器,帮我们引导模型;而总结性的 CoT 会造成混淆,引入错误,让调试变得更加困难。

而 DeepSeek R1 最酷的一点,就是暴露了模型的 CoT 如何影响提示的效果。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

而且,总结版的 CoT 显示得很慢。如果是原始的 o3-mini,应该在推理中有更快的生成速度。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

有人也横向对比了 OpenAI 和 DeepSeek 的 CoT,表示前者看起来实在太专业了,相比之下,还是 DeepSeek 的产品更自然。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

防止被「蒸馏」?

OpenAI 这波植入 CoT 总结器的做法,着实是被 DeepSeek R1 强势崛起吓到了。

o3-mini 发布当天,OpenAI 在 Reddit 开启 AMA 在线问答中,网友曾提问,「我们能看到模型思考的所有 token 吗」?

当时,阿尔特曼回复道,「我们很快就会展示一个更有帮助、更详细的版本」。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

紧接着,OpenAI 首席产品官 Kevin Weil 提前暗示了,是否展示所有内容还有待确定。

「我们知道用户(至少是高级用户)想要看到这些,所以 OpenAI 会找到一个合适的平衡点。」

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

如今,当所有人终于见到了阿尔特曼所谓的「留到最后的好东西」,感受到的只有失望。

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

毕竟,DeepSeek 早已这样做了,而且还是完整的原始 CoT!

对此,OpenAI 发言人表示,「为了提高清晰度和安全性,我们增加了一个额外的后处理步骤,其中模型审查原始思维链,移除任何不安全的内容,然后简化任何复杂的思想。」

「此外,这个后处理步骤使非英语用户能够以他们的母语接收思维链,创造一个更易于访问和友好的体验。」

o3-mini 思维链公开却被曝光全是“作假”,阿尔特曼现身解释

话虽委婉,但知道的人都明白 OpenAI 针对的是谁。

参考资料:

  • https://x.com/btibor91/status/1887633671483760862

  • https://x.com/OpenAI/status/1887616278661112259

  • https://x.com/polynoamial/status/1887621287616651429

本文来自微信公众号:新智元(ID:AI_era)原文标题:《突发!o3-mini 思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅》

相关资讯

OpenAI更新o3-mini模型,展示了给出答案的 “思维链”

近日,OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后,进行了重大更新,改变了 o3-mini 的回应方式。 现在,这款模型不仅能够回答用户的问题,还能展示其思考过程,为用户提供更多透明度。 这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步,使得 AI 工具的使用变得更加人性化。

o3智商高达157?每13333人中才有一个这么高,网友:编码分数无意义

从韦氏智商测试来看,如果 o3 的 IQ 真这么高,则称得上非常优秀。 OpenAI o3 的智商(IQ)竟然已经这么高了吗今天,Reddit 上一则热帖宣称「OpenAI o3 的 IQ 估计为 157」,并放出了一张数据图。 这意味着什么呢?

确认了!o3-mini几周内发布,奥特曼表示AGI只需872兆瓦计算功率

昨天,我们报道了一个行业猜想,说是 OpenAI 和 Anthropic 等前沿大模型公司可能已经训练出了下一代大模型,但由于它们的使用成本过高,所以短时间内根本不会被放出来。 但是,为了响应用户期待,OpenAI 和 Anthropic 等公司会不断放出一些基于下一代大模型蒸馏得到的较小模型。 更多分析请参阅文章《GPT-5、 Opus 3.5 为何迟迟不发?