Reinforcement Finetuning

OpenAI的强化微调:RL+Science 创造新神还是灭霸?

2024 年 12 月 6 号加州时间上午 11 点,OpenAI 发布了新的 Reinforcement Finetuning 方法,用于构造专家模型。 对于特定领域的决策问题,比如医疗诊断、罕见病诊断等等,只需要上传几十到几千条训练案例,就可以通过微调来找到最有的决策。 数据的形式类似于 instructiong tuning 的常见形式,有多个选项以及正确选项。
  • 1