AI Lab

不蒸馏 R1 也能超越 DeepSeek,上海 AI Lab 用 RL 突破数学推理极限

从 Qwen2.5-32B-Base 模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如 DeepSeek-R1 的情况下,就能超越 DeepSeek-R1-Distill-Qwen32B 和 OpenAI-O1 系列的超强数学推理性能。
  • 1