ChatGPT首次带图深度思考：OpenAI连发o3/o4 mini，比前代性能更强价格更低

2025-04-17 07:23

仅隔一天，OpenAI再次突然放大招：一口气，o3和o4 mini同步上线。图片依然是最热门推理模型，并且这一次，它们终于能够调用ChatGPT里的各种工具了，包括网络搜索、Python、图像分析、文件解释和图像生成。也就是说，你现在可以也用o3来生成吉卜力风格的奥特曼抱子图了（doge）。

仅隔一天，OpenAI再次突然放大招：

一口气，o3和o4 mini同步上线。

图片

依然是最热门推理模型，并且这一次，它们终于能够调用ChatGPT里的各种工具了，包括网络搜索、Python、图像分析、文件解释和图像生成。

也就是说，你现在可以也用o3来生成吉卜力风格的奥特曼抱子图了（doge）。

图片

还不只是能看懂、生成图像，官方提到，o3和o4-mini是OpenAI首次能将上传图像集成到思维链中的模型——

这意味着，它们可以基于图像展开思考，be like：

OpenAI表示，o3是他们目前最强大的推理模型，在编程、数学、科学、视觉感知等多个维度的基准测试中都刷新了SOTA，在分析图像、图表和图形等视觉任务中表现尤为出色。

图片

在外部专家评估中，o3在困难现实任务中，能比o1少犯20%的重大错误。

而o4-mini则是一款专为快速、经济高效的推理而优化的小模型。

在专家评估中，o4-mini在非STEM任务以及数据科学领域都超过了前代的o3-mini。

在AIME 2024和AIME 2025中，甚至有超过o3的表现。

图片

即日起，ChatGPT的Plus、Pro会员以及Team用户，都能直接体验o3、o4-mini和o4-mini-high，而原本的o1、o3-mini和o3-mini-high则已悄然下架。

图片

实测o3/o4-mini

所以，在基准测试上表现如此强势的o3和o4-mini，具体能带来哪些体验上的改变？

Talk is cheap，来看实测案例。

在OpenAI的官方直播中，研究员们展示了这样一个用法：

让o3直接读一份未完成的学术海报，让它根据其中的研究线索，帮忙估算质子的同位旋矢量标量电荷，并搜索相关最新研究成果，对比新成果跟估算值的不同。

图片

思考了不到3分钟，o3完全没有被难住，吐出了这样的结果：

图片

网友们也第一时间给o3和o4-mini上了小球测试：

图片

△图源：x@flavioAd

还有医学教授在抢先体验后表示：完全停不下来。

我觉得o3的智能程度已经达到或接近天才水平了！

图片

这位医学专家表示，他在向o3提出一些颇具挑战的临床或医学问题时，o3能给出像直接来自顶级专科医生的回答。

我们也简单测试了一下，比如让o3和o4-mini分别解读一下“洛就完了”表情包。

图片

o3：

图片

o4-mini：

图片

你pick哪个答案？

强化学习的Scaling Law

值得注意的是，在OpenAI o3的开发过程中，研究人员观察到：

大规模强化学习呈现出与预训练一样的“更大计算量=更好性能”的趋势。

而o3正是通过在强化学习中践行Scaling Law，得到了明显的性能提升。

OpenAI表示：

这证明了模型性能会随着思考时间的增加而持续提升。
在延迟和成本与OpenAI o1相同的条件下，o3实现了更强的性能——而且我们已经验证，如果让它思考更长时间，它的性能还会持续提升。

不过自打DeepSeek成了搅动大模型格局的鲶鱼，OpenAI也是越来越强调“性价比”了：

相比o1和o3-mini，o3和o4-mini更强了，但却更经济了！

比如，在AIME 2025中，o4-mini比之o3-mini、o3比之o1，都能在同样的推理成本下拿到更高的分数。

图片

API定价方面，拉上1天前刚刚亮相的GPT-4.1，具体价格如下：

图片

One More Thing

OpenAI再次开源了！发布一款一款本地代码智能体Codex CLI。

可将自然语言转化为可运行的代码，兼容所有OpenAI模型，包括刚刚发布的o3、o4-mini和GPT-4.1。

图片

Codex CLI为已经习惯使用终端，并希望拥有ChatGPT级别推理能力以及实际运行代码、操作文件和迭代能力的开发者打造。

它是一种聊天驱动的开发方式，能够理解并执行本地代码库。

图片

GitHub项目：https://github.com/openai/codex

参考资料：[1]https://openai.com/index/introducing-o3-and-o4-mini/[2]https://x.com/sama/status/1912558064739459315

OpenAI 推出全新推理模型 o3，实现图像思考能力

OpenAI 近期发布了其最新的推理模型 o3和 o4-mini，标志着人工智能领域的一次重大突破。这两款模型不仅在推理能力上超越了以往的版本，还首次实现了图像思考的能力，能够将视觉信息直接融入到思维过程中。 o3被誉为 “天才级” 模型，尤其在编程和数学等任务中表现出色，准确率高达87.5%。

4/17/2025 9:01:05 AM

AI在线

OpenAI 最强推理模型、能够“思考”图片，o3 和 o4-mini 正式发布

OpenAI 官方介绍称，这是其在 o 系列模型中最新训练的成果，可以在回答前进行更长时间的思考，也宣称是“迄今为止 OpenAI 发布的最智能的模型”，代表了 ChatGPT 能力的一次重大飞跃，从好奇的用户到高级研究人员都将因此受益。

4/17/2025 1:27:45 AM

汪淼

OpenAI CEO 奥尔特曼宣布本周将推出多款新产品

OpenAI 的创始人兼首席执行官山姆・奥尔特曼在社交平台𝕏上发布消息，宣布接下来的一周将推出 “很多” 令人期待的新产品。这些产品将从周二开始陆续上线，吸引了众多科技爱好者和业内人士的关注。奥尔特曼在本月初曾提到，OpenAI 可能会在几周内发布新版本的 o3和 o4-mini，并预计在未来几个月发布 GPT-5。

4/14/2025 10:01:22 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部