OpenAI发布推理模型o3及其精简版o3-mini

12月23日消息，据外媒报道，在为期12天的发布会上，OpenAI宣布了其新一代推理模型o3和精简版o3-mini，专门设计用于在回答问题之前进行更深入的思考，以提高准确性。据介绍，o3模型在ARC-AGI基准上取得了优异的表现，成为第一个超越这一基准的AI模型，展示了接近人类水平的问题解决能力。 o3系列在ARC-AGI基准上的最低性能可以达到75.7%，加上额外的计算资源，性能可以提高到87.5%。

12月23日消息，据外媒报道，在为期12天的发布会上，OpenAI宣布了其新一代推理模型o3和精简版o3-mini，专门设计用于在回答问题之前进行更深入的思考，以提高准确性。

据介绍，o3模型在ARC-AGI基准上取得了优异的表现，成为第一个超越这一基准的AI模型，展示了接近人类水平的问题解决能力。o3系列在ARC-AGI基准上的最低性能可以达到75.7%，加上额外的计算资源，性能可以提高到87.5%。

o3-mini模型专注于提高推理速度和降低成本，同时保持模型性能，使其特别适合编程任务。OpenAI计划在一月底推出o3-mini，随后不久将推出完整的o3型号。虽然o3系列机型不会直接公开发布，而且会先进行安全测试，但OpenAI已经开始允许安全研究人员注册o3和o3-mini的预览访问权限。

在编程和数学问题解决方面，o3模型显示出了显著的能力。在SWE-bench验证基准上，o3模型的准确率约为71.7%，比o1模型高出20%以上。在衡量编程能力的Codeforces Elo评分中，o3取得了2727的Elo评分，而o1评分仅为1891。此外，o3在竞技数学上的准确率达到了96.7%，在GPQA Diamond上的准确率达到了87.7%，比o1提高了近10%。

OpenAI在发布会上还介绍了一种新的安全评估方法——审议式对齐(deliberative alignment)。这种方法通过直接教授模型安全规范，训练模型在回答前明确回忆规范并准确地执行推理，从而实现对OpenAI安全政策的高度精确遵守。

目前，OpenAI正在推进外部安全测试，并在其网站上开放了早期访问应用程序。申请人必须在网上填写表格并提供相关信息。选定的研究人员将被授予访问o3和o3-mini的权限，以探索它们的能力并为安全评估做出贡献。

{{userData.name}}已认证

OpenAI发布推理模型o3及其精简版o3-mini

2025年技术趋势预测：采用AI技术的公司面临众多安全挑战

Agent 的基本架构

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩