AI在线 AI在线

Tool-Integrated Reinforcement Learning

自动学会工具解题,RL扩展催化奥数能力激增17%

在大模型推理能力提升的探索中,工具使用一直是克服语言模型计算局限性的关键路径。 不过,当今的大模型在使用工具方面还存在一些局限,比如预先确定了工具的使用模式、限制了对最优策略的探索、实现透明度不足等。 为了解决这些难题,来自上海交通大学、SII 和 GAIR 的研究团队提出了一种全新框架 ToRL(Tool-Integrated Reinforcement Learning),该方法允许模型直接从基座模型开始,通过强化学习自主探索最优工具使用策略,而非受限于预定义的工具使用模式。
4/1/2025 6:48:00 PM
机器之心
  • 1