外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

2025-02-08 05:47

出品 | 51CTO技术栈（微信号：blog51cto）Sebastian Raschka是一位外国知名的AI专家。特别在大型语言模型（LLM）研究方面，有着丰富的研究经验。近日DeepSeek-R1推理模型的推出，将“任何一款不是o1的模型快速蒸馏成具备强推理能力的o1”成为了可能，而且所需的成本和算力都大大降低。

出品 | 51CTO技术栈（微信号：blog51cto）

Sebastian Raschka是一位外国知名的AI专家。特别在大型语言模型（LLM）研究方面，有着丰富的研究经验。近日DeepSeek-R1推理模型的推出，将“任何一款不是o1的模型快速蒸馏成具备强推理能力的o1”成为了可能，而且所需的成本和算力都大大降低。

但爆火有一个地方不好，就是很容易让我们迷失在炒作的海洋中，寻找不到有价值的信息。Raschka非常nice，昨天发布了一篇有关DeepSeek推理模型的深度总结文章，信息密度极高，内容来源包含大量的技术Paper，图文并茂，非常适合想了解DeepSeek R1背后真相的朋友们。

话不多说，这就为诸君奉上。

本文介绍了构建推理模型的四种主要方法，或者我们如何通过推理能力增强 LLM。我希望这能提供有价值的见解，并帮助您驾驭围绕该主题的快速发展的文献和炒作。

2024 年，LLM领域的专业化程度不断提高。除了预训练和微调之外，我们还见证了从 RAG 到代码助手等专业应用程序的兴起。我预计这一趋势将在 2025 年加速，并更加注重特定领域和应用程序的优化（即“专业化”）。

第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段针对特定用例专门开发 LLM。第 1-3 阶段是开发 LLM 的常见步骤。第 4 阶段针对特定用例专门开发 LLM。

推理模型的开发就是这些专业化之一。这意味着我们改进 LLM，使其擅长处理复杂任务，这些任务最好通过中间步骤来解决，例如谜题、高级数学和编码挑战。然而，这种专业化并不能取代其他 LLM 应用程序。因为将 LLM 转换为推理模型也会带来某些缺点，我将在后面讨论。

下面简要列出本文主要探讨的几块内容。在本文中，我将：

解释“推理模型”的含义
讨论推理模型的优点和缺点
概述 DeepSeek R1 背后的方法
描述建立和改进推理模型的四种主要方法
分享对 DeepSeek V3 和 R1 发布后 LLM 前景的看法
提供在预算紧张的情况下开发推理模型的技巧

希望这篇文章对你会有用，因为人工智能今年依旧会继续快速发展！

我们如何定义“推理模型”？

如果你从事人工智能（或一般机器学习）工作，可能对模糊且备受争议的定义并不陌生。术语“推理模型”也不例外。最终，有人会在一篇论文中正式定义它，但在下一篇论文中又会重新定义它，依此类推。

在本文中，我将“推理”定义为回答需要复杂、多步骤生成且包含中间步骤的问题的过程。例如，像“法国首都是哪里？”这样的事实性问答不需要推理。相比之下，像“如果一列火车以 60 英里/小时的速度行驶 3 个小时，它会行驶多远？”这样的问题需要一些简单的推理。例如，它需要识别距离、速度和时间之间的关系，然后才能得出答案。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

普通的 LLM 可能只提供简短的答案（如左图所示），而推理模型通常包括揭示部分思维过程的中间步骤。

（注意，许多未专门为推理任务开发的 LLM 也可以在其答案中提供中间推理步骤。）

大多数现代大型语言模型都具备基本的推理能力，能够回答像“如果一列火车以每小时60英里的速度行驶了3小时，它走了多远？”这样的问题。因此，如今当我们提到推理模型时，我们通常指的是那些在更复杂的推理任务（如解谜题、猜谜语和数学证明）中表现出色的大型语言模型。

此外，如今大多数被标记为推理模型的大型语言模型在其回应中都包含一个“思考”或“思维”过程。大型语言模型是否以及如何真正“思考”则是另一个讨论话题。

推理模型中的中间步骤可以以两种方式出现。首先，它们可以明确地包含在回应中，如前图所示。其次，一些推理型大型语言模型（例如OpenAI的o1）会进行多次迭代，其中的中间步骤不会展示给用户。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

“推理”用于两个不同的层面：1）处理输入并通过多个中间步骤生成；2）提供某种推理作为对用户的响应的一部分。

我们什么时候应该使用推理模型？

现在我们已经定义了推理模型，我们可以进入更有趣的部分：如何构建和改进用于推理任务的 LLM。然而，在深入研究技术细节之前，重要的是要考虑何时真正需要推理模型。

我们什么时候需要推理模型？推理模型旨在擅长解决复杂任务，例如解决难题、高级数学问题和具有挑战性的编码任务。但是，对于总结、翻译或基于知识的问答等简单任务，它们并不是必需的。

事实上，将推理模型用于所有事情可能效率低下且成本高昂。例如，推理模型通常使用起来更昂贵、更冗长，有时由于“过度思考”而更容易出错。这里也适用一条简单的规则：使用正确的工具（或 LLM 类型）来完成任务。

下图总结了推理模型的主要优势和局限性。

推理模型的主要优势和劣势

简要介绍一下 DeepSeek 的训练流程

在下一节讨论构建和改进推理模型的四种主要方法之前，我想简要概述一下 DeepSeek R1 流程，如DeepSeek R1 技术报告中所述。该报告既是一个有趣的案例研究，也是开发推理 LLM 的蓝图。

请注意，DeepSeek 并没有发布单个 R1 推理模型，而是引入了三种不同的变体：DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根据技术报告中的描述，我在下图中总结了这些模型的发展过程。

图片

DeepSeek R1 技术报告中讨论了 DeepSeeks 的三种不同推理模型的开发过程。

接下来我们先简单回顾一下上图所示的流程，下一节会详细介绍构建和改进推理模型的四种主要方法。

（1）DeepSeek-R1-Zero：该模型基于 2024 年 12 月发布的 671B 预训练 DeepSeek-V3 基础模型。研究团队使用强化学习 (RL) 对其进行训练，并采用两种类型的奖励。这种方法被称为“冷启动”训练，因为它不包括监督微调 (SFT) 步骤，而这通常是带人工反馈的强化学习 (RLHF) 的一部分。

（2）DeepSeek-R1：这是 DeepSeek 的旗舰推理模型，基于 DeepSeek-R1-Zero 构建。团队通过增加 SFT 阶段和进一步的 RL 训练对其进行了进一步完善，从而改进了“冷启动”的 R1-Zero 模型。

（3）DeepSeek-R1-Distill*：DeepSeek 团队利用前面步骤生成的 SFT 数据对 Qwen 和 Llama 模型进行微调，以增强其推理能力。虽然这不是传统意义上的蒸馏，但这个过程涉及在较大的 DeepSeek-R1 671B 模型的输出上训练较小的模型（Llama 8B 和 70B，以及 Qwen 1.5B–30B）。

建立和改进推理模型的四种主要方法在本节中，我将概述当前用于增强 LLM 推理能力和构建专门推理模型（如 DeepSeek-R1、OpenAI 的 o1 和 o3 等）的关键技术。

注意：o1 和 o3 的具体工作原理在 OpenAI 之外仍不得而知。不过，据传它们将同时利用推理和训练技术。

1）推理时间扩展

提高 LLM 推理能力（或一般任何能力）的一种方法是推理时间扩展。这个术语可能有多种含义，但在这种情况下，它指的是在推理过程中增加计算资源以提高输出质量。

粗略地类比一下，当人们有更多时间思考复杂问题时，他们往往会做出更好的反应。同样，我们可以应用一些技巧，鼓励LLM在回答问题时更多地“思考”。（不过，LLM是否真的“思考”是另一个话题。）

推理时间扩展的一个直接方法是巧妙的提示工程。一个典型的例子是思路链 (CoT) 提示，其中输入提示中包含“逐步思考”等短语。这鼓励模型生成中间推理步骤，而不是直接跳到最终答案，这通常（但并非总是）可以在更复杂的问题上产生更准确的结果。（请注意，对于更简单的基于知识的问题，例如“法国的首都是什么”，采用这种策略是没有意义的，这又是一个很好的经验法则，可以找出推理模型是否适合你的输入查询。）

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

2022 年大型语言模型中的经典 CoT 提示的一个示例是零样本推理器论文 (https://arxiv.org/abs/2205.1191)

上述 CoT 方法可以看作是推理时间扩展，因为它通过生成更多的输出标记使推理更加昂贵。

另一种推理时间扩展方法是使用投票和搜索策略。一个简单的例子是多数投票，我们让 LLM 生成多个答案，然后我们通过多数投票选择正确的答案。同样，我们可以使用集束搜索和其他搜索算法来生成更好的响应。

我强烈推荐我在之前的《2024 年值得关注的 AI 研究论文（第二部分）》文章中描述的《扩展 LLM 测试时间计算优化比扩展模型参数更有效》论文，以了解有关这些不同策略的更多详细信息。

文章链接：https://magazine.sebastianraschka.com/p/ai-research-papers-2024-part-2

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

不同的基于搜索的方法依赖于基于过程奖励的模型来选择最佳答案。

注释图来自 LLM Test-Time Compute 论文，https://arxiv.org/abs/2408.03314

DeepSeek R1 技术报告指出，其模型不使用推理时间缩放。然而，这种技术通常在 LLM 之上的应用层实现，因此 DeepSeek 有可能在其应用程序中应用它。

我怀疑 OpenAI 的 o1 和 o3 模型使用了推理时间缩放，这可以解释为什么它们与 GPT-4o 等模型相比相对昂贵。除了推理时间缩放之外，o1 和 o3 可能使用与 DeepSeek R1 类似的 RL 管道进行训练。下面两节将详细介绍强化学习。

2）纯强化学习（RL）

我个人对DeepSeek R1 论文的亮点之一是他们发现推理是纯强化学习 (RL) 的一种行为。让我们更详细地探讨一下这意味着什么。

如前所述，DeepSeek 开发了三种类型的 R1 模型。第一种是DeepSeek-R1-Zero ，它建立在 DeepSeek-V3 基础模型之上，这是他们于 2024 年 12 月发布的标准预训练 LLM。与典型的 RL 流程不同，在 RL 之前应用监督微调 (SFT)，DeepSeek-R1-Zero仅使用强化学习进行训练，没有初始 SFT 阶段，如下图所示。

DeepSeek-R1-Zero模型的开发过程

不过，这种 RL 过程类似于常用的 RLHF 方法，后者通常应用于偏好调整 LLM。（我在我的文章《LLM 训练：RLHF 及其替代方案》中更详细地介绍了 RLHF 。）

但是，如上所述，DeepSeek-R1-Zero的关键区别在于它们跳过了用于指令调整的监督微调 (SFT) 阶段。这就是为什么他们将其称为“纯”RL。（尽管 LLM 背景下的 RL 与传统 RL 有很大不同，这是另一个话题。）

对于奖励，他们没有使用根据人类偏好训练的奖励模型，而是采用了两种类型的奖励：准确性奖励和格式奖励。

准确性奖励使用LeetCode 编译器来验证编码答案，并使用确定性系统来评估数学响应。
格式奖励依赖于 LLM 评委来确保响应遵循预期格式，例如将推理步骤放在 <think> 标签内。

令人惊讶的是，这种方法足以让 LLM 培养基本的推理能力。研究人员观察到一个“啊哈！”时刻，尽管模型没有经过明确的训练，但它开始在其反应中生成推理痕迹，如下图所示。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

DeepSeek R1 技术报告 (https://arxiv.org/abs/2501.12948) 中的一张图展示了“啊哈”时刻的出现。

虽然 R1-Zero 并不是表现最好的推理模型，但它确实通过生成中间“思考”步骤展示了推理能力，如上图所示。这证实了使用纯 RL 开发推理模型是可能的，而 DeepSeek 团队是第一个展示（或至少发布）这种方法的团队。

3）监督微调和强化学习（SFT + RL）

接下来我们来看看 DeepSeek 的旗舰推理模型 DeepSeek-R1 的开发历程，它是构建推理模型的蓝图。该模型在 DeepSeek-R1-Zero 的基础上进行了改进，加入了额外的监督微调 (SFT) 和强化学习 (RL)，以提高其推理性能。

请注意，在 RL 之前包含 SFT 阶段实际上很常见，如标准 RLHF 管道中所示。OpenAI 的 o1 很可能是使用类似的方法开发的。

DeepSeek-R1模型的开发过程

如上图所示，DeepSeek 团队使用 DeepSeek-R1-Zero 生成所谓的“冷启动”SFT 数据。术语“冷启动”指的是这些数据是由 DeepSeek-R1-Zero 生成的，而 DeepSeek-R1-Zero 本身并未接受过任何监督微调 (SFT) 数据的训练。

使用此冷启动 SFT 数据，DeepSeek 随后通过指令微调训练模型，然后进行另一个强化学习 (RL) 阶段。此 RL 阶段保留了 DeepSeek-R1-Zero RL 过程中使用的相同准确度和格式奖励。但是，他们添加了一致性奖励以防止语言混合，当模型在响应中在多种语言之间切换时会发生这种情况。

强化学习阶段之后是另一轮 SFT 数据收集。在此阶段，使用最新的模型检查点生成 600K 个思路链 (CoT) SFT 示例，同时使用 DeepSeek-V3 基础模型创建另外 200K 个基于知识的 SFT 示例。

然后，这 600K + 200K SFT 样本被用于另一轮强化学习。在此阶段，他们再次使用基于规则的方法对数学和编码问题进行准确率奖励，而对其他问题类型使用人类偏好标签。

最终模型 DeepSeek-R1 由于增加了 SFT 和 RL 阶段，性能较 DeepSeek-R1-Zero 有明显提升，如下表所示。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

OpenAI A1 和 DeepSeek R1 模型的基准比较。注释图来自 DeepSeek-R1 技术报告 (https://arxiv.org/abs/2501.12948)。

4）纯监督微调（SFT）和蒸馏

到目前为止，我们已经介绍了构建和改进推理模型的三种主要方法：

推理时间扩展，一种无需训练或以其他方式修改底层模型即可提高推理能力的技术。
纯强化学习 (RL)，如 DeepSeek-R1-Zero，它表明推理可以作为一种学习行为出现，而无需监督微调。
监督微调（SFT）加上 RL，这产生了 DeepSeek 的旗舰推理模型 DeepSeek-R1。

那么，还剩下什么呢？模型“蒸馏”。

令人惊讶的是，DeepSeek 还发布了通过他们称之为“蒸馏”的过程训练的较小模型。然而，在大型语言模型的背景下，蒸馏并不一定遵循深度学习中使用的经典知识蒸馏方法。传统上，在知识蒸馏中（如我的《机器学习问答与人工智能》一书第 6 章中简要描述的那样），较小的学生模型在较大的教师模型和目标数据集的对数上进行训练。

相反，这里的蒸馏是指在由较大的 LLM 生成的 SFT 数据集上对较小的 LLM（例如 Llama 8B 和 70B 以及 Qwen 2.5 模型（0.5B 到 32B））进行指令微调。具体来说，这些较大的 LLM 是 DeepSeek-V3 和 DeepSeek-R1 的中间检查点。事实上，用于此蒸馏过程的 SFT 数据与用于训练 DeepSeek-R1 的数据集相同，如上一节所述。

为了阐明这一过程，我在下图中突出显示了蒸馏部分。

DeepSeek-R1-Distill模型的开发过程。

他们为什么要开发这些蒸馏模型？我认为有两个主要原因：

1. 较小的模型效率更高。这意味着它们运行起来更便宜，但它们也可以在低端硬件上运行，这对许多像我一样的研究人员和修补匠来说尤其有趣。

2. 纯 SFT 案例研究。这些蒸馏模型可作为有趣的基准，展示纯监督微调 (SFT) 在没有强化学习的情况下可以让模型走多远。

下表比较了这些蒸馏模型与其他流行模型以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

蒸馏模型与非蒸馏模型的基准比较。

注释图来自 DeepSeek-R1 技术报告 (https://arxiv.org/abs/2501.12948)。

我们可以看到，精简后的模型明显弱于 DeepSeek-R1，但与 DeepSeek-R1-Zero 相比，它们却出奇地强大，尽管规模小了几个数量级。值得注意的是，这些模型与 o1 mini 相比表现得非常好（我怀疑 o1-mini 本身可能是 o1 的一个类似的精简版本）。

在用结论结束本节之前，还有一个有趣的比较值得一提。DeepSeek 团队测试了 DeepSeek-R1-Zero 中出现的新兴推理行为是否也会出现在较小的模型中。为了研究这一点，他们将 DeepSeek-R1-Zero 中相同的纯 RL 方法直接应用于 Qwen-32B。

下表总结了本次实验的结果，其中 QwQ-32B-Preview 是 Qwen 团队基于 Qwen 2.5 32B 开发的参考推理模型（我认为训练细节从未披露过）。此比较提供了一些额外的见解，即纯 RL 是否可以在比 DeepSeek-R1-Zero 小得多的模型中诱导推理能力。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

在较小的 32B 模型上对蒸馏和 RL 进行基准比较。

注释图来自 DeepSeek-R1 技术报告 (https://arxiv.org/abs/2501.12948)。

有趣的是，结果表明，对于较小的模型，蒸馏比纯强化学习更有效。这与以下观点一致：单靠强化学习可能不足以在这种规模的模型中产生强大的推理能力，而使用高质量推理数据进行 SFT 在使用小模型时可能是一种更有效的策略。

为了完整性，查看表格中的其他比较将会很有用：

1. Qwen-32B 使用 SFT + RL 进行训练，类似于 DeepSeek-R1 的开发方式。这将有助于确定当 RL 与 SFT 结合时，与纯 RL 和纯 SFT 相比可以取得多大的改进。

2. DeepSeek-V3 使用纯 SFT 进行训练，与创建蒸馏模型的方式类似。这样可以直接比较，看看 RL + SFT 相对于纯 SFT 的效果如何。

结论

在本节中，我们探讨了构建和改进推理模型的四种不同策略：

1. 推理时间扩展不需要额外的训练，但会增加推理成本，随着用户数量或查询量的增加，大规模部署的成本会更高。不过，对于已经很强大的模型来说，提高性能仍然是明智之举。我强烈怀疑 o1 利用了推理时间扩展，这有助于解释为什么与 DeepSeek-R1 相比，它在每 token 基础上的成本更高。

2. 纯 RL 对于研究目的来说很有趣，因为它提供了对推理作为一种新兴行为的洞察。然而，在实际模型开发中，RL + SFT 是首选方法，因为它可以产生更强大的推理模型。我强烈怀疑 o1 也是使用 RL + SFT 进行训练的。更准确地说，我相信 o1 从比 DeepSeek-R1 更弱、更小的基础模型开始，但通过 RL + SFT 和推理时间缩放进行了补偿。

3. 如上所述，RL + SFT 是构建高性能推理模型的关键方法。DeepSeek-R1 是一个很好的蓝图，展示了如何做到这一点。

4. 蒸馏是一种有吸引力的方法，尤其是用于创建更小、更高效的模型。然而，蒸馏的局限性在于它不会推动创新或产生下一代推理模型。例如，蒸馏总是依赖于现有的、更强大的模型来生成监督微调 (SFT) 数据。

我预计接下来会看到的一个有趣的方面是将 RL + SFT（方法 3）与推理时间扩展（方法 1）相结合。这很可能是 OpenAI o1 正在做的事情，只不过它可能基于比 DeepSeek-R1 更弱的基础模型，这解释了为什么 DeepSeek-R1 表现如此出色，同时在推理时间上保持相对便宜。

关于 DeepSeek R1 的思考

最近几周，很多人都问我对 DeepSeek-R1 模型的看法。简而言之，我认为它们是一项了不起的成就。作为一名研究工程师，我特别欣赏这份详细的技术报告，它提供了我可以从中学习的方法论见解。

最令人着迷的收获之一是推理是如何从纯强化学习中发展成为一种行为的。令人印象深刻的是，DeepSeek 已根据宽松的 MIT 开源许可证对其模型进行了开源，该许可证的限制甚至比 Meta 的 Llama 模型还要少。

与 o1 相比如何？

DeepSeek-R1 比 o1 好吗？我认为两者大致相同。然而，最突出的是 DeepSeek-R1 在推理时间上更高效。这表明 DeepSeek 可能在训练过程中投入了更多，而 OpenAI 可能更多地依赖于 o1 的推理时间扩展。

尽管如此，很难直接比较 o1 和 DeepSeek-R1，因为 OpenAI 尚未披露有关 o1 的太多信息。例如，我们不知道：

o1 也是专家混合体 (MoE) 吗？
o1 有多大？
o1 可能只是 GPT-4o 的稍微改进版本，具有最少的 RL + SFT 和仅广泛的推理时间扩展吗？

如果不知道这些细节，直接的比较就只是苹果和橘子之间的比较。

训练 DeepSeek-R1 的成本

另一个讨论点是开发 DeepSeek-R1 的成本。有人提到训练成本约为 600 万美元，但他们可能将 DeepSeek-V3（去年 12 月发布的基础模型）和 DeepSeek-R1 混为一谈。

600 万美元的估算是基于每 GPU 小时 2 美元的假设以及 DeepSeek-V3 最终训练运行所需的 GPU 小时数，该估算最初于 2024 年 12 月进行讨论。

然而，DeepSeek 团队从未透露 R1 的具体 GPU 小时数或开发成本，因此任何成本估算都还只是纯粹的猜测。

无论如何，最终，DeepSeek-R1 是开放权重推理模型的一个重要里程碑，并且其推理时间的效率使其成为 OpenAI o1 的一个有趣替代品。

在有限的预算下开发推理模型开发 DeepSeek-R1 级推理模型可能需要数十万到数百万美元，即使从像 DeepSeek-V3 这样的开放权重基础模型开始也是如此。对于预算有限的研究人员或工程师来说，这可能会令人沮丧。

好消息：蒸馏可以发挥很大作用

幸运的是，模型蒸馏提供了一种更具成本效益的替代方案。DeepSeek 团队通过他们的 R1 蒸馏模型证明了这一点，尽管比 DeepSeek-R1 小得多，但其推理性能却出奇地强大。然而，即使是这种方法也并不完全便宜。他们的蒸馏过程使用了 800K SFT 样本，这需要大量计算。

有趣的是，就在 DeepSeek-R1 发布前几天，我偶然看到了一篇关于 Sky-T1 的文章，这是一个令人着迷的项目，一个小团队仅使用 17K SFT 样本训练了一个开放权重 32B 模型。总成本是多少？仅需 450 美元，这比大多数 AI 会议的注册费还低。

这个例子表明，尽管大规模训练仍然昂贵，但较小规模、有针对性的微调工作仍然可以以极低的成本产生令人印象深刻的结果。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

图源：《Sky-T1：450 美元以内训练你自己的 O1 预览模型》

https://novasky-ai.github.io/posts/sky-t1/

根据他们的基准测试，Sky-T1 的表现与 o1 大致相当，考虑到其低训练成本，这令人印象深刻。

预算内的纯 RL：TinyZero

虽然 Sky-T1 专注于模型提炼，但我也在“纯 RL”领域发现了一些有趣的工作。一个值得注意的例子是TinyZero ，这是一个 3B 参数模型，它复制了 DeepSeek-R1-Zero 方法（附注：训练成本不到 30 美元）。

令人惊讶的是，即使只有 3B 参数，TinyZero 也表现出一些突发的自我验证能力，这支持了推理可以通过纯 RL 出现的想法，即使在小模型中也是如此。

TinyZero 存储库提到研究报告仍在进行中，我一定会密切关注更多细节。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

TinyZero 存储库 (https://github.com/Jiayi-Pan/TinyZero) 中的一张图片显示该模型能够进行自我验证。（相比之下，看看基础模型的响应会很有趣。）

上述两个项目表明，即使预算有限，也可以在推理模型上开展有趣的工作。虽然这两种方法都复制了 DeepSeek-R1 的方法，一种专注于纯 RL（TinyZero），另一种专注于纯 SFT（Sky-T1），但探索如何进一步扩展这些想法将非常有趣。

超越传统 SFT：旅程学习

去年我偶然发现一种特别有趣的方法，论文《O1 复制之旅：战略进展报告 - 第 1 部分》中对此进行了描述。尽管标题如此，但该论文实际上并没有复制 o1。相反，它介绍了一种改进蒸馏（纯 SFT）过程的另一种方法。

论文的核心思想是用“旅程学习”（Journey Learning）替代“捷径学习”。

捷径学习是指指令微调的传统方法，其中仅使用正确的解决方案路径来训练模型。
另一方面，旅程学习也包括错误的解决路径，让模型从错误中学习。

这种方法与 TinyZero 的纯 RL 训练中观察到的自我验证能力有点相似，但它专注于完全通过 SFT 改进模型。通过让模型接触错误的推理路径及其修正，旅程学习还可以增强自我修正能力，从而可能通过这种方式使推理模型更加可靠。

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

与传统的捷径学习不同，旅程学习在 SFT 数据中包含了错误的解决方案路径。

注释图来自《O1 复制之旅：战略进展报告 - 第 1 部分》（https://arxiv.org/abs/2410.18982）

这可能是未来工作的一个令人兴奋的方向，特别是对于低预算推理模型开发，因为基于 RL 的方法在计算上可能不切实际。

无论如何，推理模型方面目前正在发生很多有趣的工作，我相信我们将在接下来的几个月里看到更多令人兴奋的工作！

参考链接：https://magazine.sebastianraschka.com/p/understanding-reasoning-llms

Sebastian Raschka：关于DeepSeek R1和推理模型，我有几点看法

著名 AI 研究者和博主 Sebastian Raschka 又更新博客了。这一次，他将立足于 DeepSeek 技术报告，介绍用于构建推理模型的四种主要方法，也就是如何通过推理能力来增强 LLM。 Sebastian Raschka 表示：「我希望这能提供有价值的见解，并帮助你了解围绕这一主题的快速演变的文献和话题炒作。

2/9/2025 2:42:00 PM

机器之心

应对DeepSeek挑战，OpenAI增加o3-mini公开推理过程

OpenAI近日宣布展示其最新推理模型o3-mini的详细推理过程，此举被视为对竞争对手DeepSeek-R1日益增长压力的回应。这一改变标志着OpenAI在模型透明度策略上的重要转变。此前，OpenAI一直将"思维链"（Chain of Thought， CoT）视为核心竞争优势而选择隐藏。

2/8/2025 9:38:00 AM

AI在线

微软全新开源模型 MAI-DS-R1：敏感话题响应提升，安全风险降低

微软在其官网上正式开源了 DeepSeek-R1的魔改版 ——MAI-DS-R1。这一新模型在保留原有推理性能的基础上，进行了显著的增强，尤其在对敏感话题的响应能力上取得了巨大的突破。 MAI-DS-R1的响应能力达到了99.3%，是原版 R1的两倍多。

4/18/2025 5:00:40 PM

AI在线

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度纳米AI发布MCP万能工具箱，简化AI工具集成与调用 AI视频资讯早读！7个产品更新+8个案例精选小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini 小米首个推理大模型Xiaomi MiMo开源

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景人形机器人预测百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索驾驶具身智能神器推荐文本 Copilot LLaMA 算力安全视觉视频生成训练干货合集应用大型语言模型科技亚马逊智能体 DeepMind 特斯拉

顶部

外国专家解读DeepSeek：预算有限，如何复制R1推理模型？纯强化学习不现实！不是任何问题都得问DeepSeek！

我们如何定义“推理模型”？

我们什么时候应该使用推理模型？

简要介绍一下 DeepSeek 的训练流程

1）推理时间扩展

2）纯强化学习（RL）

3）监督微调和强化学习（SFT + RL）

4）纯监督微调（SFT）和蒸馏

结论

关于 DeepSeek R1 的思考

与 o1 相比如何？

训练 DeepSeek-R1 的成本

好消息：蒸馏可以发挥很大作用

预算内的纯 RL：TinyZero

超越传统 SFT：旅程学习

相关资讯

Sebastian Raschka：关于DeepSeek R1和推理模型，我有几点看法

应对DeepSeek挑战，OpenAI增加o3-mini公开推理过程

微软全新开源模型 MAI-DS-R1：敏感话题响应提升，安全风险降低