ChatGPT 被逼急了,连夜上线 o3-mini,并且还免费......

也许是迫于 DeepSeek 的压力,open ai 的负责人 萨姆·奥尔特曼,连发多个 Twitter(现在是 X) 推出了新的模型 o3-mini,并且包含三个版本:low、medium 和 high,分别针对不同的性能和资源需求优化。 图片现在,只要大家打开 chatgpt 的官网,就可以看到大大的 o3-mini 的宣传海报:图片图片虽然 o3-mini 的具体性能还没有经过广泛的实战验证,但是一些第三方的初步评测已经流出。 尤其是发布 几个小时后,加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试,评测指标包括 Accuracy(准确率) 和 Calibration Error(校准误差)图片根据评测结果可以看到,在他的评测中 o3-mini (high) 模型的 准确率为 13.0% 为全场最高。

也许是迫于 DeepSeek 的压力,open ai 的负责人 萨姆·奥尔特曼,连发多个 Twitter(现在是 X) 推出了新的模型 o3-mini,并且包含三个版本:low、medium 和 high,分别针对不同的性能和资源需求优化。

图片图片

现在,只要大家打开 chatgpt 的官网,就可以看到大大的 o3-mini 的宣传海报:

图片图片

图片图片

虽然 o3-mini 的具体性能还没有经过广泛的实战验证,但是一些第三方的初步评测已经流出。

尤其是发布 几个小时后,加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试,评测指标包括 Accuracy(准确率) 和 Calibration Error(校准误差)

图片图片

根据评测结果可以看到,在他的评测中 o3-mini (high) 模型的 准确率为 13.0% 为全场最高。(PS:不过最高才 13% 是不是有点过于低了?)

这个结果一出来,open ai 的负责人萨姆·奥尔特曼就立刻转发了该 Twitter,并带上了一个 Sunday 没有太看懂的话:“我们很快就需要再做另一场测试了......”。Sunday 猜测或许是 “很快还会推出新的模型?所以需要再做新的测试?”

图片图片

不过,无论如何。DeepSeek 的爆火和 o3-mini 的快速跟进,都表示 大语言模型的竞争已经进入了一个全新的阶段。

Sunday 认为,这对于我们开发者而言,绝对是 有益的! 因为这将代表着 独立开发者、个人公司、超级个体 将会拥有更多强大的工具和资源!

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

惊掉下巴!o3像是一个弥天大谎!基准构建者Epoch AI发长文认错曝猛料:OpenAI竟独家访问数据集,问题和答案可用来训练!

出品 | 51CTO技术栈(微信号:blog51cto)惊天大瓜来了! 去年年底OpenAI 推出o3推理,在数学、编码、通用AGI方面都取得了令人的难以置信的类人甚至超人的进展。 但就在昨天,大洋彼岸的一众人工智能专家开始对“o3”的这些数据表示严重的怀疑,甚至将之比作“Theranos”时刻(一家建立在巨大谎言之上的公司,项目参与人员被迫保密,外界却被蒙在鼓里)。

o3数学成绩作弊大瓜!提前让测试机构给真题,60多名数学大牛全被蒙在鼓里

OpenAI o3还没上线,就被曝数学成绩是靠作弊得来? Benchmark发布机构内部人员爆料称,OpenAI给了他们经费赞助。 就连包括陶哲轩在内参与出题的60余名数学家,在消息曝光之前也都和普通公众一样蒙在鼓里。