Claude sonnet

GRPO在《时空谜题》中击败o1、o3-mini和R1

近日,海外大模型产品平台 OpenPipe 上发布了一项研究,阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。 研究作者分别为来自 Ender Research 的强化学习研究员 Brad Hilton 和 OpenPipe 的创始人 Kyle Corbitt。 他们的研究表示,他们不仅将模型与 Sonnet 3.7 的差距缩小至个位百分比,同时实现超过100倍的推理成本优化。
  • 1