DeepSeek R1-Zero

揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案

DeepSeek-V3-Base 在强化学习(RL)调优之前就已经展现出「顿悟时刻」? RL 调整中不断增加的输出长度可能是由于 GRPO 中的 BIAS 造成的? 近日,来自 Sea AI Lab、新加坡国立大学、新加坡管理大学的研究人员研究了预训练特性影响 RL 性能的原理,发表了一篇名为《Understanding R1-Zero-Like Training: A Critical Perspective》的研究报告。
  • 1