DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当。

DeepSeek 版 o1,有消息了。

还未正式发布,已在代码基准测试 LiveCodeBench 霸榜前三,表现与 OpenAI o1 的中档推理设置相当

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

注意了,这不是在 DeepSeek 官方 App 已经能试玩的 DeepSeek-R1-Lite-Preview(轻量预览版)。

而是摘掉了轻量版的帽子,称为 DeepSeek-R1-Preview(预览版),意味着替换了规模更大的基础模型。

LiveCodeBench 团队透露,他们正在与 DeepSeek 合作评估新模型的能力,在合作过程中,DeepSeek 团队还帮他们找出并解决了评分系统的一些 bug。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

与此同时,他们还晒出了目前仅有的一张 DeepSeek-R1-Preview 的思考过程。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

鉴于 DeepSeek 此前已宣布 R1 模型将开源,有网友表示,与 OpenAI o1 编程能力相当的开源模型即将发布,2025 年的编程就只剩下按 Tab 键了。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

DeepSeek 推理大模型满血版

两个月前,DeepSeek 在官网上线 DeepSeek-R1-Lite-Preview 时曾透露:

DeepSeek-R1-Lite-Preview 使用强化学习训练,推理含大量反思和验证,遵循新的 Scaling Laws—— 推理越长,表现越强

在 AIME 测试基准中,随着推理长度的增加,DeepSeek-R1-Lite-Preview 表现出稳定的得分提升。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

DeepSeek-R1-Lite 推理的特点在网友们的后续测试中也得到了验证:

在某些情况下,模型似乎能够在生成推理步骤时自我纠正,表现出类似原生“自我反思”的能力。不过,没有训练数据、模型架构和技术报告 / 论文的细节,很难确认这一点。

期待未来的开源模型和 API!

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

摘掉 Lite 的帽子,变成 DeepSeek-R1-Preview,意味着换了更大的基础模型。

之前 Lite 版就在难度较高数学和代码任务上超越 o1-preview,大幅领先 GPT-4o。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

这次在 LiveCodeBench 上,这次的 DeepSeek-R1-Preview 的表现又与 OpenAI o1-Medium 相当,网友们更加期待开源模型和 API 了。

LiveCodeBench 由 UC 伯克利、MIT 和康奈尔大学团队推出,旨在对大模型的代码能力进行全面且无污染的评估。

具体避免测试数据泄露的方法,是随着时间的推移不断从人类的编程竞赛平台收集新的题目。

除了代码生成,还会评估模型在代码自修复、执行和测试输出预测等方面的能力。这样实时更新、确保公平性和可靠性的测试方法,获得了开发者社区的认可。

还有程序猿喊话 Cursor 直接把 R1-Preview 集成到 Agent mode 里:

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

One More Thing

赶在春节前,许多还在做训练的国产大模型团队,都把自家模型更新了一遍。OpenAI 似乎要趁这边放假开始搞事情了(狗头),阿尔特曼发帖透露:

o3-mini 完成外部合作测试,已确定最终版,将在几周内推出,会同时上线 API 和 ChatGPT。

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

在后续对话中,阿尔特曼还确认了未来模型更多基本情况:

  • o3-mini 的速度会非常快

  • o3-mini 大多数情况下不如 o1-pro

  • o3 pro 收费从 $200 / 月起步

  • OpenAI 正在关注如何让 AI 一次性输出更多内容

  • 2025 年计划把 GPT 系列和 o 系列合并

DeepSeek R1 Preview 模型亮相,代码能力与 OpenAI o1 相当且确认开源

本文来自微信公众号:量子位(ID:QbitAI),作者:梦晨、西风,原标题《DeepSeek 新模型霸榜,代码能力与 OpenAI o1 相当且确认开源,网友:今年编程只剩 Tab 键》

相关资讯

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

开源大模型领域,又迎来一位强有力的竞争者。近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。项目地址::DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelDeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。与

DeepSeek开源数学大模型,高中、大学定理证明新SOTA

DeepSeek-Prover-V1.5 通过结合强化学习和蒙特卡洛树搜索,显著提升了证明生成的效率和准确性。AI 技术与数学发现的进展,正前所未有地交织在一起。前段时间,著名数学家陶哲轩在牛津数学公开讲座中做了主题为「AI 在科学和数学中的潜力」的主题分享。他指出,将 AI 整合到数学领域将使形式化证明的编写速度超过人类证明(人类证明容易出错)。这将成为一个关键转折点,意味着形式化证明的使用将不仅限于验证现有的证明,还将用于创造新的数学知识。这将通过广泛的人类数学家与 AI 数学家之间的协作来实现。我们将迎来一个

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

DeepSeek 又出手了,这次又是重磅炸弹。 昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。 在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview。