AI在线 AI在线

ChatGPT 被逼急了,连夜上线 o3-mini,并且还免费......

作者:程序员Sunday
2025-02-03 12:15
也许是迫于 DeepSeek 的压力,open ai 的负责人 萨姆·奥尔特曼,连发多个 Twitter(现在是 X) 推出了新的模型 o3-mini,并且包含三个版本:low、medium 和 high,分别针对不同的性能和资源需求优化。 图片现在,只要大家打开 chatgpt 的官网,就可以看到大大的 o3-mini 的宣传海报:图片图片虽然 o3-mini 的具体性能还没有经过广泛的实战验证,但是一些第三方的初步评测已经流出。 尤其是发布 几个小时后,加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试,评测指标包括 Accuracy(准确率) 和 Calibration Error(校准误差)图片根据评测结果可以看到,在他的评测中 o3-mini (high) 模型的 准确率为 13.0% 为全场最高。

也许是迫于 DeepSeek 的压力,open ai 的负责人 萨姆·奥尔特曼,连发多个 Twitter(现在是 X) 推出了新的模型 o3-mini,并且包含三个版本:low、medium 和 high,分别针对不同的性能和资源需求优化。

图片图片

现在,只要大家打开 chatgpt 的官网,就可以看到大大的 o3-mini 的宣传海报:

图片图片

图片图片

虽然 o3-mini 的具体性能还没有经过广泛的实战验证,但是一些第三方的初步评测已经流出。

尤其是发布 几个小时后,加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试,评测指标包括 Accuracy(准确率) 和 Calibration Error(校准误差)

图片图片

根据评测结果可以看到,在他的评测中 o3-mini (high) 模型的 准确率为 13.0% 为全场最高。(PS:不过最高才 13% 是不是有点过于低了?)

这个结果一出来,open ai 的负责人萨姆·奥尔特曼就立刻转发了该 Twitter,并带上了一个 Sunday 没有太看懂的话:“我们很快就需要再做另一场测试了......”。Sunday 猜测或许是 “很快还会推出新的模型?所以需要再做新的测试?”

图片图片

不过,无论如何。DeepSeek 的爆火和 o3-mini 的快速跟进,都表示 大语言模型的竞争已经进入了一个全新的阶段。

Sunday 认为,这对于我们开发者而言,绝对是 有益的! 因为这将代表着 独立开发者、个人公司、超级个体 将会拥有更多强大的工具和资源!

相关标签:

相关资讯

惊掉下巴!o3像是一个弥天大谎!基准构建者Epoch AI发长文认错曝猛料:OpenAI竟独家访问数据集,问题和答案可用来训练!

出品 | 51CTO技术栈(微信号:blog51cto)惊天大瓜来了! 去年年底OpenAI 推出o3推理,在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。 但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。
1/20/2025 1:37:16 PM

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来? Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。 就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。
1/20/2025 1:17:11 PM

人类赢了!OpenAI深夜开源全新Agent评测基准!AI大战顶尖人类,上演机器学习届“神仙打架”;R1排第三,Claude夺冠

编辑 | 李美涵出品 | 51CTO技术栈(微信号:blog51cto)深夜,OpenAI再次发力Agent领域,开源了一个全新的AI Agent评测基准—— PaperBench。 这是一个用于评估 AI 智能体复现最前沿 AI 研究能力的基准测试。 智能体需从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、构建代码库并成功执行实验。
4/3/2025 1:35:49 PM
李美涵