DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当。

DeepSeek 版 o1,有消息了。

还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

注意了,这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview(轻量预览版)。

而是摘掉了轻量版的帽子,称为 DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型。

LiveCodeBench 团队透露,他们正在与 DeepSeek 合作评估新模型的能力,在合作过程中,DeepSeek 团队还帮他们找出并解决了评分系统的一些 bug。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

与此同时,他们还晒出了目前仅有的一张 DeepSeek-R1-Preview 的思考过程。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

鉴于 DeepSeek 此前已宣布 R1 模型将开源,有网友表示,与 OpenAI o1 编程能力相当的开源模型即将发布,2025 年的编程就只剩下按 Tab 键了。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

DeepSeek 推理大模型满血版

两个月前,DeepSeek 在官网上线 DeepSeek-R1-Lite-Preview 时曾透露:

DeepSeek-R1-Lite-Preview 使用强化学习训练,推理含大量反思和验证,遵循新的 Scaling Laws—— 推理越长,表现越强

在 AIME 测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview 表现出稳定的得分提升。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

DeepSeek-R1-Lite 推理的特点在网友们的后续测试中也得到了验证:

在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构和技术报告 / 论文的细节,很难确认这一点。

期待未来的开源模型和 API!

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

摘掉 Lite 的帽子,变成 DeepSeek-R1-Preview,意味着换了更大的基础模型。

之前 Lite 版就在难度较高数学和代码任务上超越 o1-preview,大幅领先 GPT-4o。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

这次在 LiveCodeBench 上,这次的 DeepSeek-R1-Preview 的表现又与 OpenAI o1-Medium 相当,网友们更加期待开源模型和 API 了。

LiveCodeBench 由 UC 伯克利、MIT 和康奈尔大学团队推出,旨在对大模型的代码能力进行全面且无污染的评估。

具体避免测试数据泄露的方法,是随着时间的推移不断从人类的编程竞赛平台收集新的题目。

除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力。这样实时更新、确保公平性和可靠性的测试方法,获得了开发者社区的认可。

还有程序猿喊话 Cursor 直接把 R1-Preview 集成到 Agent mode 里:

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

One More Thing

赶在春节前,许多还在做训练的国产大模型团队,都把自家模型更新了一遍。OpenAI 似乎要趁这边放假开始搞事情了(狗头),阿尔特曼发帖透露:

o3-mini 完成外部合作测试,已确定最终版,将在几周内推出,会同时上线 API 和 ChatGPT。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

在后续对话中,阿尔特曼还确认了未来模型更多基本情况:

  • o3-mini 的速度会非常快

  • o3-mini 大多数情况下不如 o1-pro

  • o3 pro 收费从 $200 / 月起步

  • OpenAI 正在关注如何让 AI 一次性输出更多内容

  • 2025 年计划把 GPT 系列和 o 系列合并

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨、西风,原标题《DeepSeek 新模型霸榜,代码能力与 OpenAI o1 相当且确认开源,网友:今年编程只剩 Tab 键》

相关资讯