AI在线 AI在线

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

作者:新智元
2025-02-07 11:20
OpenAI,真的被DeepSeek逼急了! 活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。 比如问「怎么今天不是星期五啊😅」?

OpenAI,真的被DeepSeek逼急了!

活久见,就在刚刚,OpenAI把o3-mini的「思维链」公开了。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

比如问「怎么今天不是星期五啊😅」?

在展示出来的CoT中,o3-mini一步步思考,这个问题应该是用户在搞幽默,觉得本周应该快结束了,结果还没结束。因此,自己需要给一个聪明机智的回答。

然后它用Zeller公式计算后发现,2025年2月6日的确是星期四,即使闰年的特殊情况也是如此。

最终,它回答说:今天的确是周四不是周五,日历就是这么定的。然后提供了一番情绪价值,鼓励用户说:再忍忍,只差一天啦!

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

不过,机智的大神们很快就发现了「华点」——这是「真的CoT」吗?

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

没多久,就破案了!

先是OpenAI研究员Noam Brown发文表示,这次放出来的并不是模型原始的CoT。

随后,Tibor Blaho也发现——所谓的CoT,无非就是个「总结器」而已。(手动狗头)

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

对此,奥特曼解释道,我们正努力整理原始的CoT提升可读性,并在必要时提供翻译,尽量保持原始内容的忠实度。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

他放出了四个emoji,让o3-mini在思维链中展示了一把推理过程

坚决不让竞争对手看到CoT的具体过程,OpenAI的防备心实在是有些重啊。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

OpenAI研究员:看到CoT实时演示,是「啊哈时刻」

OpenAI研究员Noam Brown表示,在o1-preview发布前,自己向他人介绍草莓时,看到CoT的实时演示,通常是他们的「啊哈时刻」。

他们清楚地意识到,这将是一件大事。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

对于全新的o3-mini CoT,Noam Brown放出了自己的独家玩法:

你正在玩井字棋,使用 O。到目前为止,X 已经在左上角和右下角落子,而你在中间位置落子。最优的下一个动作是什么?请只回答你的动作,并画出棋盘。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

Noam Brown表示,o3-mini是目前第一个能持续正确回答井字棋问题的模型。

好笑的是,他承认CoT其实有些不稳定,但可以看到,它最终还是把这个问题给想明白了。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

有人指出,OpenAI遮遮掩掩地放出这个高仿CoT,其实比什么都不放还要糟。

因为真实的CoT可以充当prompt的调试器,帮我们引导模型;而总结性的CoT会造成混淆,引入错误,让调试变得更加困难。

而DeepSeek R1最酷的一点,就是暴露了模型的CoT如何影响提示的效果。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

而且,总结版的CoT显示得很慢。如果是原始的o3-mini,应该在推理中有更快的生成速度。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

有人也横向对比了OpenAI和DeepSeek的CoT,表示前者看起来实在太专业了,相比之下,还是DeepSeek的产品更自然。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

防止被「蒸馏」?

OpenAI这波植入CoT总结器的做法,着实是被DeepSeek R1强势崛起吓到了。

o3-mini发布当天,OpenAI在Reddit开启AMA在线问答中,网友曾提问,「我们能看到模型思考的所有token吗」?

当时,奥特曼回复道,「我们很快就会展示一个更有帮助、更详细的版本」。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

紧接着,OpenAI首席产品官Kevin Weil提前暗示了,是否展示所有内容还有待确定。

「我们知道用户(至少是高级用户)想要看到这些,所以OpenAI会找到一个合适的平衡点。」

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

如今,当所有人终于见到了奥特曼所谓的「留到最后的好东西」,感受到的只有失望。

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

毕竟,DeepSeek早已这样做了,而且还是完整的原始CoT!

对此,OpenAI发言人表示,「为了提高清晰度和安全性,我们增加了一个额外的后处理步骤,其中模型审查原始思维链,移除任何不安全的内容,然后简化任何复杂的思想。」

「此外,这个后处理步骤使非英语用户能够以他们的母语接收思维链,创造一个更易于访问和友好的体验。」

突发!o3-mini思维链公开,却被曝光全是「作假」,奥特曼现身解释网友炸锅

话虽委婉,但知道的人都明白OpenAI针对的是谁。

相关标签:

相关资讯

真·降维打击,Sora与Runway、Pika的对比来了,震撼效果背后是物理引擎模拟现实世界

以后的视频生成领域,恐怕真的只有 OpenAI 的 Sora 和其他模型了。昨天,OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区,其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已,直呼「好莱坞的时代结束了」。仅仅一年时间,文本生成视频的效果迎来了质的飞跃。                              图源:,随着 Sora 加入这场视频生成领域的战争,受到冲击最大的是同类竞品模型,比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后,很多人认为,S
2/19/2024 12:11:00 PM
机器之心

神秘“蓝莓”登顶文生图模型竞技场,被指 Flux.1 续作

都来玩这套。继 OpenAI“草莓”之后,又有神秘模型蓝莓来“霸榜”。在文生图模型排行榜上,两个“无人认领”的模型 blueberry_0 和 blueberry_1 力压 Flux.1、Ideogram v2、Midjourney v6.1 等知名模型,成为最新榜一榜二大哥。一些生成效果 be like,确实不错。不过这一次,未必是 OpenAI 跨界来搞事,背后公司更可能是打造了 Flux 的黑森林实验室。为啥?来看这组 PK。blueberry_0 生成的大胡子男人,和 Flux Pro 的几乎一模一样。有人
9/30/2024 9:57:17 AM
汪淼

港科大提出端侧文生图模型SnapGen,参数仅SD十分之一,1.4秒内生成1024分辨率图像

本文经AIGC Studio公众号授权转载,转载请联系出处。 这项工作提出了一种新颖且高效的 T2I 模型SnapGen,SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像(1024x1024 ) 的图像生成模型(379M ) ,并在 GenEval 指标上 达到0.66。 该模型全面超越了许多现有的数十亿参数模型,例如 SDXL、Lumina-Next 和 Playgroundv2。
1/21/2025 9:50:00 AM
AIGC Studio