AI在线 AI在线

解耦剪辑和动态采样策略优化

超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO

DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,让人难以复现出大规模和工业级的强化学习系统。 近日,清华 AIR 和字节联合 SIA Lab 发布了他们的第一项研究成果:DAPO,即 Decoupled Clip and Dynamic sAmpling Policy Optimization(解耦剪辑和动态采样策略优化)。 这是一个可实现大规模 LLM 强化学习的开源 SOTA 系统。
3/18/2025 2:46:00 PM
机器之心
  • 1