OpenAI 的 o3 模型在 2024 国际信息学奥林匹克竞赛中斩获金牌

2025-02-13 04:51

近期，OpenAI 发布了一项关于其最新推理模型 o3的研究，展示了大型语言模型（LLM）如何从初学者的竞赛程序员成长为全球顶尖水平的竞争者。 o3在著名编程平台 CodeForces 上取得了2724的评分，位于前99.8% 的百分位，表现相当出色，并在2024年国际信息学奥林匹克(IOI)中获得了金牌级别的成绩。图源备注:图片由AI生成，图片授权服务商Midjourney研究表明，o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型，这一结果表明，通过强化学习取得的成就要优于手工设计的解决方案。

OpenAI

图源备注:图片由AI生成，图片授权服务商Midjourney

研究表明，o3模型在 IOI 比赛中超越了专门为此活动微调的 o1-ioi 模型，这一结果表明，通过强化学习取得的成就要优于手工设计的解决方案。在 IOI2024赛事中，o3在标准条件下参与竞争，成功地跨越了金牌的门槛。同时，它在 CodeForces 上也跻身全球前200名程序员之列，能够与顶尖人类程序员展开角逐。

来自沃顿商学院的副教授 Ethan Mollick 表示:“通过强化学习发展起来的通用推理能力，现已超过了那些经过精心设计的领域特定解决方案。与其为特定任务构建专门的系统，不如通过更强的推理能力来让大型通用模型实现更优的结果。”

此次研究是 OpenAI 对其模型在竞争编程和更广泛软件工程领域表现进行评估的一部分。此外，另一家公司 Anthropic 也在本周一发布了一份关于 AI 对职场影响的报告。报告指出，约36% 的职业在至少25% 的工作任务中使用了 AI，而57% 的 AI 应用则提升了人类的能力，43% 的应用则专注于自动化。尽管如此，只有4% 的职业中，AI 被用于至少75% 的工作任务。

这项研究还表明，软件开发和技术写作是 AI 应用的主要领域，而在涉及与环境进行物理互动的任务中，AI 的作用则相对较小。

划重点:
💻 o3模型在 CodeForces 上获得2724评分，位于前99.8% 的百分位，并在国际信息学奥林匹克中获得金牌。
📊 强化学习的效果超越了传统的手工设计解决方案，展示出通用推理能力的优势。
📈 AI 在职场中的应用广泛，软件开发和技术写作是其主要领域，但在物理互动任务中的应用较少。

OpenAI更新o3-mini模型，展示了给出答案的 “思维链”

近日，OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后，进行了重大更新，改变了 o3-mini 的回应方式。现在，这款模型不仅能够回答用户的问题，还能展示其思考过程，为用户提供更多透明度。这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步，使得 AI 工具的使用变得更加人性化。

2/7/2025 2:40:00 PM

AI在线