揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」? RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的? 近日,来自 Sea AI Lab、新加坡国立大学、新加坡管理大学的研究人员研究了预训练特性影响 RL 性能的原理,发表了一篇名为《Understanding R1-Zero-Like Training: A Critical Perspective》的研究报告。

DeepSeek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」?RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的?

近日,来自 Sea AI Lab、新加坡国立大学、新加坡管理大学的研究人员研究了预训练特性影响 RL 性能的原理,发表了一篇名为《Understanding R1-Zero-Like Training: A Critical Perspective》的研究报告。

分析表明,DeepSeek-V3-Base 已经展现出「顿悟时刻」,而 Qwen2.5 基础模型即使没有提示模板也表现出强大的推理能力,这表明存在潜在的预训练偏差。此外,作者还在群体相对策略优化(GRPO)中发现了优化偏差,它在训练期间人为地增加了响应长度(尤其是对于错误输出)。

为解决这个问题,研究人员引入了 Dr. GRPO,这是一种无偏优化方法,可在保持推理性能的同时提高 token 效率。利用这些见解,作者提出了一种简化的 R1-Zero 方案,使用 7B 基础模型在 AIME 2024 上实现了 43.3% 的准确率,建立了新的 SOTA 水准。

paper.png

项目链接:https://github.com/sail-sg/understand-r1-zero

介绍

最近一段时间,人工智能领域正在迎来变革。DeepSeek-R1-Zero 通过引入类似 R1-Zero 的训练范式彻底改变了大语言模型(LLM) 后训练的流程:直接将 RL 应用于基础 LLM,而不依赖任何监督微调(SFT) 作为初步步骤。

这种新范式因其简单性和已证明的 RL 扩展现象而具有吸引力:模型推理能力随着模型响应长度的不断增加而提高。这种现象还伴随着「顿悟时刻」(Aha Moment),此时模型展现出了人类一样的自我反思等新兴技能,让人们见证了强化学习的力量和美感。

在本文中,研究人员旨在通过研究两个基本组成部分来理解类似 R1-Zero 的训练:基础模型和 RL。

在第一部分中,他们研究了基础模型的各种属性,重点关注 Qwen2.5 模型系列 ,该模型最近被用于重现 R1-Zero ,以及 DeepSeek-V3-Base,真正的 R1-Zero 模型是从该模型中经过 RL 调整的。

在第二部分中,人们确定了 GRPO 优化中的偏差,这可能会导致错误响应逐渐变长。为此,研究人员提出了一个简单的解决方案,可以在保持推理性能的同时提高 token 效率,称为 Dr. GRPO(GRPO Done Right)(图 1 中显示)。

f1.png

为了理解 R1-Zero 上的训练方式,研究人员仔细观察了两个核心部分:基础模型和强化学习,随后重点介绍了其发现。

他们对基础模型和强化学习的分析表明,实现类似 R1-Zero 训练可采用极简方案:利用无偏的 Dr. GRPO 算法,以 Qwen-Math 模板对 Qwen2.5-Math-7B 模型进行强化学习调优,使用 MATH 3-5 级问题作为训练数据,仅用 8 块 A100 GPU 训练 27 小时,就实现了最先进的性能(图 2 展示)。

image.png

该研究的主要观点总结如下:

  • 模板对于让基础模型回答问题(而非完成句子)至关重要。此外,所有基础模型在强化学习之前都已具备数学解题能力;

  • 有趣的是,Qwen-2.5 基础模型在不使用模板时立即获得约 60% 的提升,这让研究人员假设它们可能在训练模型时对拼接的问答文本进行了预训练;

  • 几乎所有基础模型都已表现出「顿悟时刻」,包括 DeepSeek-V3-Base;

  • 新方法 Dr. GRPO 有效修复了 GRPO 在优化中的偏差,实现了更好的标记效率;

  • 模型与模板不匹配会在强化学习重建之前破坏推理能力;

  • 在 Llama-3.2-3B 上进行数学预训练可提高其强化学习的上限。

基础模型分析

研究人员对广泛的基础模型进行了审查,包括 Qwen-2.5 系列、Llama-3.1 和 DeepSeek 系列,向它们提出从 MATH 训练集中抽取的 500 个问题,并分析它们的回答。

R1-Zero 训练能力:模板构建探索性基础策略

由于从基础模型进行训练是 R1-Zero 类范式的基本设置,研究人员首先研究广泛使用的开源基础模型,这些模型通常是为了句子补全而训练的。研究人员探索了是否可以通过适当的模板有效地激发其问答能力,从而作为问答基础策略 。

在实验设置中,研究人员纳入了 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-7B、Llama-3.1-8B、DeepSeek-Math-7B 和 DeepSeek-V3-Base-685B 进行实验。

对于每个模型,他们首先应用无模板来获取模型回答,然后让 GPT-4o-mini 判断模型回答是处于问答格式(无论质量如何)还是处于句子补全模式。他们记录倾向于回答问题的回答百分比作为指标。然后,他们分别应用 R1 模板和 Qwen-Math 模板来获取模型回答,并根据该指标确定每个模型最合适的模板。最后,使用相应模板评估每个模型的 pass@8 准确度,以判断基础策略是否能够探索出有益于强化学习(RL)改进的轨迹。

在结果呈现中,图 3 中的左图显示了基础模型(无论是否使用模板)对所提供问题的回答能力。

f3.png

研究人员观察到,Llama 和 DeepSeek 模型通过使用适当的模板(R1 模板)都提高了回答能力。然而,Qwen2.5 模型在不使用模板时表现最佳(回答率为 100%)。这一有趣的特性激发了他们进一步研究的动力。同时,无模板时最低的回答率表明 DeepSeek-V3-Base 是一个几乎纯粹的基础模型。这一观察结果促使他们探讨像 DeepSeekV3-Base 这样的纯粹基础模型是否表现出 「顿悟时刻」的现象。

图 3 的中图显示了不同基础模型(使用模板)在不同采样温度下的 pass@8 准确度。该指标可以作为基础策略探索能力的指标。例如,如果基础策略甚至无法采样出一条通向正确最终答案的轨迹,那么由于没有奖励信号,强化学习就不可能改进该策略。他们的结果表明,所有测试的模型都具有探索性(因此已准备好进行强化学习),其中 Qwen2.5 模型表现最佳(甚至超越了 DeekSeek-V3-Base)。这可能部分解释了为什么大多数 R1-Zero 项目都基于 Qwen2.5 模型。

image.png

基础模型中已出现「顿悟时刻」

包括 DeepSeek-V3-Base 模型

DeepSeek-R1-Zero 最令人振奋的成果之一,是通过纯粹的强化学习训练,模型涌现出了自我反思行为,也就是所谓的 「顿悟时刻」(Aha moment)。

一些早期研究指出,在开源的 R1 复现项目中可能不存在「顿悟时刻」,因为这些项目所使用的基础模型已经表现出自我反思相关的关键词。然而,这些研究并未测试过作为真实 R1-Zero 模型强化学习微调基础的 DeepSeek-V3-Base 模型。研究人员通过自己部署 DeepSeek-V3-Base-685B 模型,并使用 R1 模板对其回答的 500 道 MATH 题目进行分析,填补了这一空白。

从图 3 的右图可以看出,DeepSeek-V3-Base 模型也产生了相当数量的自我反思,进一步验证了早期研究的主张。此外,该研究人员在图 4 中展示了 DeepSeek-V3-Base 模型生成诸如 「Aha」「等等」「重新检查问题」等关键词的例子。

f4.png

DeepSeek-V3-Base 已经展现出了顿悟时刻。

另一个重要的问题是,自我反思行为是否在强化学习训练后提升了模型性能。为了探究这一点,研究人员部署了 DeepSeek-R1-Zero,并分析了它对 MATH 数据集中相同问题的回答。他们发现,与基础模型相比,R1-Zero 中自我反思行为的出现频率更高。然而,没有明确的证据表明这些自我反思行为与更高的准确率相关。

看起来,在基础模型预训练中存在的偏差,自我反思行为、数学解决能力在 RL 通过奖励信号强化之前就已经被注入了。那么越来越长的响应是这种 RL 过程的结果吗?

强化学习分析

在 Deepseek-R1-Zero 的训练和研究过程中,一个显著的趋势是模型在整个训练中响应长度增加,这一趋势被广泛解释为模型正在发展「自我反思」等高级推理能力的标志,后续也有很多研究者通过不同的算法和实现方式复现了这一趋势。

然而,有学者提出,观察到的响应长度增加可能并非完全由高级推理能力的发展所驱动,而是归因于 GRPO 目标函数固有的偏差:

image.png

eq3.png

其中,eq3a.png

R (q, oi) 表示 Deepseek-R1-Zero 中给定问题 q 和采样响应 oi 的结果奖励(该结论也适用于过程奖励案例)。

与公式(2)中的目标函数相比,GRPO 引入了两种偏差:

  • 响应层面的长度偏差:这种偏差源于对响应长度进行归一化处理。当模型生成正确响应时(即优势值为正),较短的响应会获得更大的梯度更新,从而促使策略倾向于生成简洁的正确答案。然而,当模型生成错误响应时(即优势值为负),较长的响应由于长度较大而受到的惩罚较轻,导致策略更倾向于生成冗长的错误答案。这种长度规范化机制使得模型在正确时偏好简短,而在错误时偏好冗长,形成了一种不对称的优化倾向。

  • 问题层面的难度偏差:这种偏差源于对问题的奖励进行标准差归一化处理。对于标准差较低的问题(即问题过于简单或过于困难),策略更新时会赋予更高的权重。尽管优势值归一化是强化学习中的常见技巧,但 GRPO 将其应用于单个问题层面,而非整个批次,这导致不同问题在目标函数中的权重分布不均。这种机制使得模型更偏好极端简单或极端困难的问题,而忽视了中等难度的问题,进一步影响了策略的优化方向。

值得注意的是,长度偏差并不仅限于 GRPO,在开源的标准 PPO 算法中也普遍存在。

随后作者对多个流行的开源 PPO 实现进行了分析,发现这些实现无一例外地在损失函数中表现出了基于响应长度的偏差(详见附录 1 和表 2)。

image.png

image.png

研究者推测,这种逐词归一化的设计可能源于大语言模型(LLM)的逐词预训练机制,其初衷是让每个词对目标函数的影响均衡。然而,在强化学习的语境下,通过除以响应长度 | oi | 进行归一化,却意外引入了这种偏差。因此这一发现为优化提供了新的思路。

为了优化 GRPO 算法并解决其存在的偏差问题,研究针对 GRPO 两处修改:一是删除了长度归一化项 ∣oi∣,二是移除了标准差(std)标准化项。

同时,为确保优化目标的无偏性,研究在 Listing 1 的掩码均值函数中将 mask.sum (axis=dim) 替换为一个固定值 MAX_TOKENS,具体如绿色高亮部分所示。

基于上述改进,研究者将这一优化算法命名为 Dr. GRPO,并通过实验验证了其在实际应用中的有效性。

image.png

如图 5 所展示的多项实验对比结果,证明 Dr. GRPO 能够有效缓解优化偏差并显著减少了错误回答的长度。

image.png

如果对详细推导过程感兴趣,可以参考附录 A。

此外,由于 Qwen2.5-Math 基础模型可以在没有任何提示模板的情况下轻松回答问题并达到高精度,作者探讨了不同模板对 RL 训练的影响。针对「更大问题覆盖率提升性能」的普遍观点,作者还研究了不同模板与问题覆盖率之间的交互作用。(实验设置详见表 3)

image.png

image.png

结果如图 6 展示了不同实验的 RL 训练曲线,揭示了以下结论:

  • 模板决定了初始策略的性能,但 RL 可以将所有策略提升至约 40% 的相似水平(给定合适的问题集);

  • 使用 R1 模板时,问题集覆盖率显著影响 RL 动态,覆盖率不足会导致性能上限降低。而使用 Qwen-Math 模板时,RL 在 GSM-8K 上取得最佳表现,表明在更简单(且分布外)问题上训练可大幅提升(近乎翻倍)在更难题上的测试准确率。

进一步分析表明:

  • Qwen2.5-Math-1.5B 基础模型已具备较强的数学解题能力(见图 6 右图的起点),模板的使用反而会破坏这一能力,直到 RL 重建。因此这说明在强调纯 RL 带来的巨大收益时应更加谨慎。

  • 当基础模型与模板存在较大不匹配时(如 R1 模板与 Qwen2.5-Math-1.5B),策略改进主要依赖 RL 调优,需问题集具有良好的覆盖率(见图 6 左图)。反之,即使是一个小型且完全分布外的问题集,也能通过强化正确推理行为而非注入新知识,有效提升推理能力。

领域特定预训练可提升 RL 上限

最近成功的 R1-Zero 类数学推理器复制大多以 Qwen2.5 基础模型作为初始策略,这些模型本身已是强大的数学解题器,并展现出自我反思的模式。不过,该研究人员希望探讨另一方面:R1-Zero 类训练能否在最初数学推理能力较弱的基础模型上取得成功?他们的回答是肯定的,并且观察到数学预训练能够提升强化学习的上限。

在实验设置中,他们以 Llama-3.2-3B 基础模型为起点,采用无偏的 Dr. GRPO 算法进行强化学习微调,并使用 R1 模板。他们假设领域特定的预训练有助于强化学习,因此选用了在 FineMath 数据集上持续预训练的 Llama-3.2-3B-FineMath4 模型。此外,正如之前假设的那样,Qwen2.5 模型很可能是在拼接的问答文本上进行预训练的,因此他们同样从 NuminaMath1.5 中准备了一个拼接的数据集,并用 1e-5 的学习率对 Llama-3.2-3B-FineMath 进行了 2 轮持续预训练。他们将这种拼接持续预训练的模型称为 Llama-3.2-3BNuminaQA。

以下是结果呈现。图 7 的左图中展示了不同基础模型的强化学习曲线。他们观察到,即使是对基础的 Llama 模型,强化学习也能提升其性能,但提升幅度很小。在经过持续预训练(以及拼接持续预训练)以融入数学领域知识后,Llama 模型展现出了更强大的强化学习性能,验证了他们的假设。

f7.png

作者还使用 Llama 基础模型重新审视了 GRPO 的优化偏差。图 7 的右图比较了使用 GRPO 和 Dr. GRPO 训练的模型性能和回答长度,可以清楚地看到,GRPO 可以产生「双重增加」现象,可能导致误解,即在数学预训练后,长思维链(long-CoT)也能在 Llama 模型上出现。然而,长度的增加可能是由于优化偏差,而这种偏差可以通过他们提出的 Dr. GRPO 有效缓解(图 7 的右图)。

结语

研究人员对用于 R1-Zero 类似训练的基础模型以及强化学习中所用算法进行了批判性审视。通过分析,作者揭示了预训练偏差如何影响强化学习的结果,以及诸如 GRPO 这样的优化选择如何无意中改变模型的行为。他们提出的 Dr. GRPO 算法提供了一个简单的修正方案,在保持推理性能的同时提高 token 效率。

最终的研究结果表明,扩大强化学习的规模既能提升效果,又能提高效率 —— 有时,简单化反而能实现更优的性能。

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。

爆肝48小时!学会这8招,让DeepSeek变得超好用!

更多相关介绍:. 重磅好文! 8个章节带你全方位了解DeepSeek这两天,DeepSeek-R1 火的飞起,在中日美三个 Appstore 榜上登顶。