OpenAI发布推理模型o3及其精简版o3-mini

12月23日消息,据外媒报道,在为期12天的发布会上,OpenAI宣布了其新一代推理模型o3和精简版o3-mini,专门设计用于在回答问题之前进行更深入的思考,以提高准确性。 据介绍,o3模型在ARC-AGI基准上取得了优异的表现,成为第一个超越这一基准的AI模型,展示了接近人类水平的问题解决能力。 o3系列在ARC-AGI基准上的最低性能可以达到75.7%,加上额外的计算资源,性能可以提高到87.5%。

OpenAI发布推理模型o3及其精简版o3-mini

12月23日消息,据外媒报道,在为期12天的发布会上,OpenAI宣布了其新一代推理模型o3和精简版o3-mini,专门设计用于在回答问题之前进行更深入的思考,以提高准确性。

据介绍,o3模型在ARC-AGI基准上取得了优异的表现,成为第一个超越这一基准的AI模型,展示了接近人类水平的问题解决能力。o3系列在ARC-AGI基准上的最低性能可以达到75.7%,加上额外的计算资源,性能可以提高到87.5%。

o3-mini模型专注于提高推理速度和降低成本,同时保持模型性能,使其特别适合编程任务。OpenAI计划在一月底推出o3-mini,随后不久将推出完整的o3型号。虽然o3系列机型不会直接公开发布,而且会先进行安全测试,但OpenAI已经开始允许安全研究人员注册o3和o3-mini的预览访问权限。

在编程和数学问题解决方面,o3模型显示出了显著的能力。在SWE-bench验证基准上,o3模型的准确率约为71.7%,比o1模型高出20%以上。在衡量编程能力的Codeforces Elo评分中,o3取得了2727的Elo评分,而o1评分仅为1891。此外,o3在竞技数学上的准确率达到了96.7%,在GPQA Diamond上的准确率达到了87.7%,比o1提高了近10%。

OpenAI在发布会上还介绍了一种新的安全评估方法——审议式对齐(deliberative alignment)。这种方法通过直接教授模型安全规范,训练模型在回答前明确回忆规范并准确地执行推理,从而实现对OpenAI安全政策的高度精确遵守。

目前,OpenAI正在推进外部安全测试,并在其网站上开放了早期访问应用程序。申请人必须在网上填写表格并提供相关信息。选定的研究人员将被授予访问o3和o3-mini的权限,以探索它们的能力并为安全评估做出贡献。

相关资讯

o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo

自从 OpenAI 的 o1 问世以来,它强大的推理能力就承包了 AI 圈近期的热搜。不需要专门训练,它就能直接拿下数学奥赛金牌,甚至可以在博士级别的科学问答环节上超越人类专家。展示 o1 实力的 demo,我们看了不少,评估 o1 表现的评测,全网比比皆是,关于 o1 技术路线的讨论也如火如荼,引发了广泛的关注和深入的思考。不过 o1 背后的故事,还鲜为人知,那些在幕后默默付出的团队成员们,他们的故事同样值得被讲述和铭记。刚刚,OpenAI 发布了 o1 研发团队的完整访谈,为我们揭秘了 o1 的「成长历程」。o

LeCun批评o1根本不像研究,Noam Brown回怼:已发表的研究都是废话

图灵奖三巨头之一 Yann LeCun 又和别人吵起来了,这次是 Noam Brown。Noam Brown 为 OpenAI o1 模型的核心贡献者之一,此前他是 Meta FAIR 的一员,主导了曾火遍一时的 CICERO 项目,在 2023 年 6 月加入 OpenAI  。这次吵架的内容就是围绕 o1 展开的。众所周知,从 AI 步入新的阶段以来,OpenAI 一直选择了闭源,o1 的发布也不例外。这也引来了广大网友的吐槽,干脆叫 CloseAI 算了,反观 Meta,在开源领域就做的很好,o1 的发布,更

OpenAI o1 推理模型 API 上线,仅面向特定开发者开放

“OpenAI 12 天”活动进入第 9 天,OpenAI 今日宣布,其“推理”人工智能模型 o1 正式通过 API 向部分开发者开放,并同步更新了包括 GPT-4o、实时 API 以及微调 API 等多项开发者工具。