DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

现在,这股 Open 的风也是反向吹起来了,最新目标,正是国产大模型 DeepSeek-R1。

当初 OpenAI 抛出 Sora 大饼,一时间 Open Sora 项目热火朝天。

现在,这股 Open 的风也是反向吹起来了,最新目标,正是国产大模型 DeepSeek-R1

DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

Open R1 项目由 HuggingFace 发起,联合创始人兼 CEO Clem Delangue 是这么说的:

我们的科学团队已经开始致力于完全复制和开源 R1,包括训练数据、训练脚本……

我们希望能充分发挥开源 AI 的力量,让全世界每个人都能受益于 AI 的进步!我相信这也有助于揭穿一些神话。

HuggingFace 振臂一呼,立刻欢呼者众。项目上线仅 1 天,就在 GitHub 上刷下 1.9k 标星。

DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

看来这一波,DeepSeek-R1 真是给全球大模型圈带来了不小的震撼,并且影响还在持续。

Open R1

不过话说回来,DeepSeek-R1 本身就是开源的,HuggingFace 搞这么个“Open R1”项目,又是为何?

官方在项目页中做了解释:

这个项目的目的是构建 R1 pipeline 中缺失的部分,以便所有人都能在此之上复制和构建 R1。

HuggingFace 表示,将以 DeepSeek-R1 的技术报告为指导,分 3 个步骤完成这个项目:

  • 第 1 步:用 DeepSeek-R1 蒸馏高质量语料库,来复制 R1-Distill 模型。

  • 第 2 步:复制 DeepSeek 用来构建 R1-Zero 的纯强化学习(RL)pipeline。这可能涉及为数学、推理和代码整理新的大规模数据集。

  • 第 3 步:通过多阶段训练,从基础模型过渡到 RL 版本。

DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

结合 DeepSeek 的官方技术报告来看,也就是说,Open R1 项目首先要实现的,是用 R1 数据蒸馏小模型,看看效果是不是像 DeepSeek 说的那么好:

DeepSeek 开源了 6 个用 R1 蒸馏的小模型,其中蒸馏版 Qwen-1.5 甚至能在部分任务上超过 GPT-4o。

DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

接下来,就是按照 DeepSeek 所说,不用 SFT,纯靠 RL 调教出 R1-Zero,再在 R1-Zero 的基础上复刻出性能逼近 o1 的 R1 模型。

其中多阶段训练是指,R1 技术报告提到,DeepSeek-R1 训练过程中引入了一个多阶段训练流程,具体包括以下 4 个阶段:

  • 冷启动

用数千个长思维链(CoT)样本对基础模型进行监督微调(SFT),为模型提供初始的推理能力

  • 面向推理的强化学习

在第一个 SFT 阶段的基础之上,用和训练 R1-Zero 相同的大规模强化学习方法,进一步提升模型的推理能力,特别是应对编程、数学、科学和逻辑推理任务的能力。

  • 拒绝采样和监督微调

再次使用监督微调,提升模型的非推理能力,如事实知识、对话能力等。

  • 针对所有场景的强化学习

这次强化学习的重点是让模型行为与人类偏好保持一致,提升模型的可用性和安全性。

目前,在 GitHub 仓库中,已经可以看到这几个文件:

  • GRPO 实现

  • 训练和评估代码

  • 合成数据生成器

DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

阿尔特曼坐不住了

有意思的是,R1 刷屏之中,阿尔特曼也坐不住了。

这不,他又带来了 o3-mini 的最新剧透:

ChatGPT Plus 会员可以每天获得 100 条 o3-mini 查询。

Plus 会员马上就能用上 operator 了,我们正在尽力!

下一个智能体 Plus 会员首发就能用。

DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

这话一出,𝕏的空气中充满了快乐的气息(doge):

哇!DeepSeek 正在让 OpenAI 主动大甩卖诶!

DeepSeek-R1 持续刷屏,连 Open R1 都来了!抱抱脸发起,1 天狂揽 1.9k 星

参考链接:

  • [1]https://github.com/huggingface/open-r1

  • [2]https://x.com/ClementDelangue/status/1883154611348910181

本文来自微信公众号:量子位(ID:QbitAI),作者:鱼羊

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。

推理性能直逼o1,DeepSeek再次出手,重点:即将开源

DeepSeek 又出手了,这次又是重磅炸弹。 昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。 在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview。