突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

作者：新智元

2025-02-07 11:20

OpenAI，真的被DeepSeek逼急了！活久见，就在刚刚，OpenAI把o3-mini的「思维链」公开了。比如问「怎么今天不是星期五啊😅」？

OpenAI，真的被DeepSeek逼急了！

活久见，就在刚刚，OpenAI把o3-mini的「思维链」公开了。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

比如问「怎么今天不是星期五啊😅」？

在展示出来的CoT中，o3-mini一步步思考，这个问题应该是用户在搞幽默，觉得本周应该快结束了，结果还没结束。因此，自己需要给一个聪明机智的回答。

然后它用Zeller公式计算后发现，2025年2月6日的确是星期四，即使闰年的特殊情况也是如此。

最终，它回答说：今天的确是周四不是周五，日历就是这么定的。然后提供了一番情绪价值，鼓励用户说：再忍忍，只差一天啦！

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

不过，机智的大神们很快就发现了「华点」——这是「真的CoT」吗？

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

没多久，就破案了！

先是OpenAI研究员Noam Brown发文表示，这次放出来的并不是模型原始的CoT。

随后，Tibor Blaho也发现——所谓的CoT，无非就是个「总结器」而已。（手动狗头）

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

对此，奥特曼解释道，我们正努力整理原始的CoT提升可读性，并在必要时提供翻译，尽量保持原始内容的忠实度。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

他放出了四个emoji，让o3-mini在思维链中展示了一把推理过程

坚决不让竞争对手看到CoT的具体过程，OpenAI的防备心实在是有些重啊。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

OpenAI研究员：看到CoT实时演示，是「啊哈时刻」

OpenAI研究员Noam Brown表示，在o1-preview发布前，自己向他人介绍草莓时，看到CoT的实时演示，通常是他们的「啊哈时刻」。

他们清楚地意识到，这将是一件大事。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

对于全新的o3-mini CoT，Noam Brown放出了自己的独家玩法：

你正在玩井字棋，使用 O。到目前为止，X 已经在左上角和右下角落子，而你在中间位置落子。最优的下一个动作是什么？请只回答你的动作，并画出棋盘。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

Noam Brown表示，o3-mini是目前第一个能持续正确回答井字棋问题的模型。

好笑的是，他承认CoT其实有些不稳定，但可以看到，它最终还是把这个问题给想明白了。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

有人指出，OpenAI遮遮掩掩地放出这个高仿CoT，其实比什么都不放还要糟。

因为真实的CoT可以充当prompt的调试器，帮我们引导模型；而总结性的CoT会造成混淆，引入错误，让调试变得更加困难。

而DeepSeek R1最酷的一点，就是暴露了模型的CoT如何影响提示的效果。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

而且，总结版的CoT显示得很慢。如果是原始的o3-mini，应该在推理中有更快的生成速度。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

有人也横向对比了OpenAI和DeepSeek的CoT，表示前者看起来实在太专业了，相比之下，还是DeepSeek的产品更自然。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

防止被「蒸馏」？

OpenAI这波植入CoT总结器的做法，着实是被DeepSeek R1强势崛起吓到了。

o3-mini发布当天，OpenAI在Reddit开启AMA在线问答中，网友曾提问，「我们能看到模型思考的所有token吗」？

当时，奥特曼回复道，「我们很快就会展示一个更有帮助、更详细的版本」。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

紧接着，OpenAI首席产品官Kevin Weil提前暗示了，是否展示所有内容还有待确定。

「我们知道用户（至少是高级用户）想要看到这些，所以OpenAI会找到一个合适的平衡点。」

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

如今，当所有人终于见到了奥特曼所谓的「留到最后的好东西」，感受到的只有失望。

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

毕竟，DeepSeek早已这样做了，而且还是完整的原始CoT！

对此，OpenAI发言人表示，「为了提高清晰度和安全性，我们增加了一个额外的后处理步骤，其中模型审查原始思维链，移除任何不安全的内容，然后简化任何复杂的思想。」

「此外，这个后处理步骤使非英语用户能够以他们的母语接收思维链，创造一个更易于访问和友好的体验。」

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

话虽委婉，但知道的人都明白OpenAI针对的是谁。

真·降维打击，Sora与Runway、Pika的对比来了，震撼效果背后是物理引擎模拟现实世界

以后的视频生成领域，恐怕真的只有 OpenAI 的 Sora 和其他模型了。昨天，OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区，其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已，直呼「好莱坞的时代结束了」。仅仅一年时间，文本生成视频的效果迎来了质的飞跃。图源：，随着 Sora 加入这场视频生成领域的战争，受到冲击最大的是同类竞品模型，比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后，很多人认为，S

2/19/2024 12:11:00 PM

机器之心

神秘“蓝莓”登顶文生图模型竞技场，被指 Flux.1 续作

都来玩这套。继 OpenAI“草莓”之后，又有神秘模型蓝莓来“霸榜”。在文生图模型排行榜上，两个“无人认领”的模型 blueberry_0 和 blueberry_1 力压 Flux.1、Ideogram v2、Midjourney v6.1 等知名模型，成为最新榜一榜二大哥。一些生成效果 be like，确实不错。不过这一次，未必是 OpenAI 跨界来搞事，背后公司更可能是打造了 Flux 的黑森林实验室。为啥？来看这组 PK。blueberry_0 生成的大胡子男人，和 Flux Pro 的几乎一模一样。有人

9/30/2024 9:57:17 AM

汪淼

港科大提出端侧文生图模型SnapGen，参数仅SD十分之一，1.4秒内生成1024分辨率图像

本文经AIGC Studio公众号授权转载，转载请联系出处。这项工作提出了一种新颖且高效的 T2I 模型SnapGen，SnapGen 是第一个可以在1.4秒内在移动设备上合成高分辨率图像（1024x1024 ）的图像生成模型（379M ），并在 GenEval 指标上达到0.66。该模型全面超越了许多现有的数十亿参数模型，例如 SDXL、Lumina-Next 和 Playgroundv2。

1/21/2025 9:50:00 AM

AIGC Studio

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

突发！o3-mini思维链公开，却被曝光全是「作假」，奥特曼现身解释网友炸锅

OpenAI研究员：看到CoT实时演示，是「啊哈时刻」

防止被「蒸馏」？

相关资讯

真·降维打击，Sora与Runway、Pika的对比来了，震撼效果背后是物理引擎模拟现实世界

神秘“蓝莓”登顶文生图模型竞技场，被指 Flux.1 续作

港科大提出端侧文生图模型SnapGen，参数仅SD十分之一，1.4秒内生成1024分辨率图像