DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

作者：清源

2025-01-26 03:09

现在，这股 Open 的风也是反向吹起来了，最新目标，正是国产大模型 DeepSeek-R1。

当初 OpenAI 抛出 Sora 大饼，一时间 Open Sora 项目热火朝天。

现在，这股 Open 的风也是反向吹起来了，最新目标，正是国产大模型 DeepSeek-R1。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

Open R1 项目由 HuggingFace 发起，联合创始人兼 CEO Clem Delangue 是这么说的：

我们的科学团队已经开始致力于完全复制和开源 R1，包括训练数据、训练脚本……
我们希望能充分发挥开源 AI 的力量，让全世界每个人都能受益于 AI 的进步！我相信这也有助于揭穿一些神话。

HuggingFace 振臂一呼，立刻欢呼者众。项目上线仅 1 天，就在 GitHub 上刷下 1.9k 标星。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

看来这一波，DeepSeek-R1 真是给全球大模型圈带来了不小的震撼，并且影响还在持续。

Open R1

不过话说回来，DeepSeek-R1 本身就是开源的，HuggingFace 搞这么个“Open R1”项目，又是为何？

官方在项目页中做了解释：

这个项目的目的是构建 R1 pipeline 中缺失的部分，以便所有人都能在此之上复制和构建 R1。

HuggingFace 表示，将以 DeepSeek-R1 的技术报告为指导，分 3 个步骤完成这个项目：

第 1 步：用 DeepSeek-R1 蒸馏高质量语料库，来复制 R1-Distill 模型。
第 2 步：复制 DeepSeek 用来构建 R1-Zero 的纯强化学习（RL）pipeline。这可能涉及为数学、推理和代码整理新的大规模数据集。
第 3 步：通过多阶段训练，从基础模型过渡到 RL 版本。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

结合 DeepSeek 的官方技术报告来看，也就是说，Open R1 项目首先要实现的，是用 R1 数据蒸馏小模型，看看效果是不是像 DeepSeek 说的那么好：

DeepSeek 开源了 6 个用 R1 蒸馏的小模型，其中蒸馏版 Qwen-1.5 甚至能在部分任务上超过 GPT-4o。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

接下来，就是按照 DeepSeek 所说，不用 SFT，纯靠 RL 调教出 R1-Zero，再在 R1-Zero 的基础上复刻出性能逼近 o1 的 R1 模型。

其中多阶段训练是指，R1 技术报告提到，DeepSeek-R1 训练过程中引入了一个多阶段训练流程，具体包括以下 4 个阶段：

冷启动

用数千个长思维链（CoT）样本对基础模型进行监督微调（SFT），为模型提供初始的推理能力

面向推理的强化学习

在第一个 SFT 阶段的基础之上，用和训练 R1-Zero 相同的大规模强化学习方法，进一步提升模型的推理能力，特别是应对编程、数学、科学和逻辑推理任务的能力。

拒绝采样和监督微调

再次使用监督微调，提升模型的非推理能力，如事实知识、对话能力等。

针对所有场景的强化学习

这次强化学习的重点是让模型行为与人类偏好保持一致，提升模型的可用性和安全性。

目前，在 GitHub 仓库中，已经可以看到这几个文件：

GRPO 实现
训练和评估代码
合成数据生成器

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

阿尔特曼坐不住了

有意思的是，R1 刷屏之中，阿尔特曼也坐不住了。

这不，他又带来了 o3-mini 的最新剧透：

ChatGPT Plus 会员可以每天获得 100 条 o3-mini 查询。
Plus 会员马上就能用上 operator 了，我们正在尽力！
下一个智能体 Plus 会员首发就能用。

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

这话一出，𝕏的空气中充满了快乐的气息（doge）：

哇！DeepSeek 正在让 OpenAI 主动大甩卖诶！

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

参考链接：

[1]https://github.com/huggingface/open-r1
[2]https://x.com/ClementDelangue/status/1883154611348910181

本文来自微信公众号：量子位（ID：QbitAI），作者：鱼羊

微软全新开源模型 MAI-DS-R1：敏感话题响应提升，安全风险降低

微软在其官网上正式开源了 DeepSeek-R1的魔改版 ——MAI-DS-R1。这一新模型在保留原有推理性能的基础上，进行了显著的增强，尤其在对敏感话题的响应能力上取得了巨大的突破。 MAI-DS-R1的响应能力达到了99.3%，是原版 R1的两倍多。

4/18/2025 5:00:40 PM

AI在线

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

成本打下来了，需求更多才对？春节这几天，国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆（参见《英伟达市值蒸发近 6000 亿美元，而 DeepSeek 刚刚又开源新模型》）。

1/29/2025 6:43:00 PM

机器之心

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型，全世界已经陷入了没日没夜的大讨论。从它的模型能力是否真的先进，到是不是真的只用了 550W 进行训练，再到神秘的研究团队，每个角度都是话题。

2/5/2025 2:37:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

DeepSeek-R1 持续刷屏，连 Open R1 都来了！抱抱脸发起，1 天狂揽 1.9k 星

Open R1

阿尔特曼坐不住了

相关资讯

微软全新开源模型 MAI-DS-R1：敏感话题响应提升，安全风险降低

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

自有歪果仁为DeepSeek「辩经」：揭穿围绕DeepSeek的谣言