ChatGPT 被逼急了，连夜上线 o3-mini，并且还免费......

作者：程序员Sunday

2025-02-03 12:15

也许是迫于 DeepSeek 的压力，open ai 的负责人萨姆·奥尔特曼，连发多个 Twitter（现在是 X）推出了新的模型 o3-mini，并且包含三个版本：low、medium 和 high，分别针对不同的性能和资源需求优化。图片现在，只要大家打开 chatgpt 的官网，就可以看到大大的 o3-mini 的宣传海报：图片图片虽然 o3-mini 的具体性能还没有经过广泛的实战验证，但是一些第三方的初步评测已经流出。尤其是发布几个小时后，加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试，评测指标包括 Accuracy（准确率）和 Calibration Error（校准误差）图片根据评测结果可以看到，在他的评测中 o3-mini (high) 模型的准确率为 13.0% 为全场最高。

也许是迫于 DeepSeek 的压力，open ai 的负责人萨姆·奥尔特曼，连发多个 Twitter（现在是 X）推出了新的模型 o3-mini，并且包含三个版本：low、medium 和 high，分别针对不同的性能和资源需求优化。

图片

现在，只要大家打开 chatgpt 的官网，就可以看到大大的 o3-mini 的宣传海报：

图片

图片

虽然 o3-mini 的具体性能还没有经过广泛的实战验证，但是一些第三方的初步评测已经流出。

尤其是发布几个小时后，加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试，评测指标包括 Accuracy（准确率）和 Calibration Error（校准误差）

图片

根据评测结果可以看到，在他的评测中 o3-mini (high) 模型的准确率为 13.0% 为全场最高。（PS：不过最高才 13% 是不是有点过于低了？）

这个结果一出来，open ai 的负责人萨姆·奥尔特曼就立刻转发了该 Twitter，并带上了一个 Sunday 没有太看懂的话：“我们很快就需要再做另一场测试了......”。Sunday 猜测或许是 “很快还会推出新的模型？所以需要再做新的测试？”

图片

不过，无论如何。DeepSeek 的爆火和 o3-mini 的快速跟进，都表示大语言模型的竞争已经进入了一个全新的阶段。

Sunday 认为，这对于我们开发者而言，绝对是有益的！因为这将代表着独立开发者、个人公司、超级个体将会拥有更多强大的工具和资源！

相关标签：

资源 DeepSeek o3-mini

相关资讯

惊掉下巴！o3像是一个弥天大谎！基准构建者Epoch AI发长文认错曝猛料：OpenAI竟独家访问数据集，问题和答案可用来训练！

惊掉下巴！o3像是一个弥天大谎！基准构建者Epoch AI发长文认错曝猛料：OpenAI竟独家访问数据集，问题和答案可用来训练！

出品 | 51CTO技术栈（微信号：blog51cto）惊天大瓜来了！去年年底OpenAI 推出o3推理，在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。但就在昨天，大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑，甚至将之比作“Theranos”时刻（一家建立在巨大谎言之上的公司，项目参与人员被迫保密，外界却被蒙在鼓里）。

1/20/2025 1:37:16 PM

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线，就被曝数学成绩是靠作弊得来？ Benchmark发布机构内部人员爆料称，OpenAI给了他们经费赞助。就连包括陶哲轩在内参与出题的60余名数学家，在消息曝光之前也都和普通公众一样蒙在鼓里。

1/20/2025 1:17:11 PM

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演机器学习届“神仙打架”；R1排第三，Claude夺冠

人类赢了！OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类，上演机器学习届“神仙打架”；R1排第三，Claude夺冠

编辑 | 李美涵出品 | 51CTO技术栈（微信号：blog51cto）深夜，OpenAI再次发力Agent领域，开源了一个全新的AI Agent评测基准—— PaperBench。这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文，包括理解论文贡献、构建代码库并成功执行实验。

4/3/2025 1:35:49 PM

李美涵

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部