对比偏好学习

斯坦福提出对比偏好学习：无需强化学习即可从人类反馈中学习

我们知道，ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的，存在难以处理的优化难题。本文中，斯坦福大学等研究机构的团队探索用「对比偏好学习」替换掉「强化学习」，在速度和性能上都有不俗的表现。在模型与人类意图对齐方面，根据人类反馈的强化学习（RLHF）已经成为一大流行范式。通常来说，RLHF 算法的工作过程分为两个阶段：一、使用人类偏好学习一个奖励函数；二、通过使用强化学习优化所学习的奖励来对齐模型。RLHF 范式假定人类偏好的分布遵照奖励，但近期有研究认为情况并非如此，人类