AI在线 AI在线

OpenAI 的 o3 模型在 2024 国际信息学奥林匹克竞赛中斩获金牌

作者:AI在线
2025-02-13 04:51
近期,OpenAI 发布了一项关于其最新推理模型 o3的研究,展示了大型语言模型(LLM)如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。 o3在著名编程平台 CodeForces 上取得了2724的评分,位于前99.8% 的百分位,表现相当出色,并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。 图源备注:图片由AI生成,图片授权服务商Midjourney研究表明,o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型,这一结果表明,通过强化学习取得的成就要优于手工设计的解决方案。

近期,OpenAI 发布了一项关于其最新推理模型 o3的研究,展示了大型语言模型(LLM)如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。o3在著名编程平台 CodeForces 上取得了2724的评分,位于前99.8% 的百分位,表现相当出色,并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。

OpenAI

图源备注:图片由AI生成,图片授权服务商Midjourney

研究表明,o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型,这一结果表明,通过强化学习取得的成就要优于手工设计的解决方案。在 IOI2024赛事中,o3在标准条件下参与竞争,成功地跨越了金牌的门槛。同时,它在 CodeForces 上也跻身全球前200名程序员之列,能够与顶尖人类程序员展开角逐。

来自沃顿商学院的副教授 Ethan Mollick 表示:“通过强化学习发展起来的通用推理能力,现已超过了那些经过精心设计的领域特定解决方案。与其为特定任务构建专门的系统,不如通过更强的推理能力来让大型通用模型实现更优的结果。”

此次研究是 OpenAI 对其模型在竞争编程和更广泛软件工程领域表现进行评估的一部分。此外,另一家公司 Anthropic 也在本周一发布了一份关于 AI 对职场影响的报告。报告指出,约36% 的职业在至少25% 的工作任务中使用了 AI,而57% 的 AI 应用则提升了人类的能力,43% 的应用则专注于自动化。尽管如此,只有4% 的职业中,AI 被用于至少75% 的工作任务。

这项研究还表明,软件开发和技术写作是 AI 应用的主要领域,而在涉及与环境进行物理互动的任务中,AI 的作用则相对较小。

划重点:  

💻 o3模型在 CodeForces 上获得2724评分,位于前99.8% 的百分位,并在国际信息学奥林匹克中获得金牌。  

📊 强化学习的效果超越了传统的手工设计解决方案,展示出通用推理能力的优势。  

📈 AI 在职场中的应用广泛,软件开发和技术写作是其主要领域,但在物理互动任务中的应用较少。

相关标签:

相关资讯

OpenAI更新o3-mini模型,展示了给出答案的 “思维链”

近日,OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后,进行了重大更新,改变了 o3-mini 的回应方式。 现在,这款模型不仅能够回答用户的问题,还能展示其思考过程,为用户提供更多透明度。 这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步,使得 AI 工具的使用变得更加人性化。
2/7/2025 2:40:00 PM
AI在线

OpenAI 最强推理模型、能够“思考”图片,o3 和 o4-mini 正式发布

OpenAI 官方介绍称,这是其在 o 系列模型中最新训练的成果,可以在回答前进行更长时间的思考,也宣称是“迄今为止 OpenAI 发布的最智能的模型”,代表了 ChatGPT 能力的一次重大飞跃,从好奇的用户到高级研究人员都将因此受益。
4/17/2025 1:27:45 AM
汪淼

OpenAI o3 模型运行成本估算大幅上调:单次任务从 3000 美元涨至 3 万美元

Arc Prize Foundation 大幅上调 OpenAI o3 模型运行成本估算,从 3000 美元涨至 3 万美元。高昂成本凸显 AI 模型特定任务的高成本难题,控制成本成行业挑战。##AI模型成本##
4/3/2025 7:59:45 AM
远洋
  • 1