谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

工程
2月15日
编辑

机器之心

效果更稳定，实现更简朴。大型语言模型（LLM）的成功离不开「鉴于人类反馈的加强进修（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个赞美模型，通过分类目标为前者分配更高的分数。然后通过某种加强进修算法优化这个赞美函数。然而，赞美模型的关键要素可能会产生一些不良影响。来自卡内基梅隆大学（CMU）和 Google Research 的钻研者联合提出了一种简朴的、理论上严格的、试验上有效的 RLHF 新格式 —— 自我博弈偏好优化（Self-Play Preference Op

效果更稳定，实现更简朴。

大型语言模型（LLM）的成功离不开「鉴于人类反馈的加强进修（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个赞美模型，通过分类目标为前者分配更高的分数。然后通过某种加强进修算法优化这个赞美函数。然而，赞美模型的关键要素可能会产生一些不良影响。

来自卡内基梅隆大学（CMU）和 Google Research 的钻研者联合提出了一种简朴的、理论上严格的、试验上有效的 RLHF 新格式 —— 自我博弈偏好优化（Self-Play Preference Optimization，SPO）。该格式清除了赞美模型，并且不需要匹敌性训练。

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

论文：A Minimaximalist Approach to Reinforcement Learning from Human Feedback

论文地址：https://arxiv.org/abs/2401.04056

格式简介

SPO 格式主要包括两个方面。首先，该钻研通过将 RLHF 建立为两者零和博弈（zero-sum game），真正清除了赞美模型，从而更有能力处理实践中经常出现的噪声、非马尔可夫偏好。其次，通过利用博弈的对称性，该钻研注明可以简朴地以自我博弈的方式训练单个智能体，从而清除了不稳定匹敌训练的需要。

实际上，这相当于从智能体中采样多个轨迹，要求评估者或偏好模型比较每对轨迹，并将赞美设置为轨迹的获胜率。

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

SPO 避免了赞美建模、复合 error 和匹敌性训练。通过从社会选择理论（social choice theory）中建立最小最大获胜者的概念，该钻研将 RLHF 建立为两者零和博弈，并利用该博弈支付矩阵的对称性来注明可以简朴地训练单个智能体来匹敌其自身。

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

该钻研还分析了 SPO 的收敛特性，并注明在潜在赞美函数确实存在的情况下，SPO 能以与标准格式相媲美的快速速度收敛到最优策略。

试验

该钻研在一系列具有现实偏好函数的连续控制任务上，注明了 SPO 比鉴于赞美模型的格式性能更好。SPO 在各种偏好设置中能够比鉴于赞美模型的格式更有效地进修样本，以下图 2 所示。

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

该钻研从多个维度将 SPO 与迭代赞美建模 (RM) 格式进行比较，旨在回答 4 个问题：

当面 intransitive 偏好时，SPO 能否计算 MW？

在具有独特 Copeland Winners / 最优策略的问题上，SPO 能否匹配或超过 RM 样本效率？

SPO 对随机偏好的稳健性如何？

SPO 可以处理非马尔可夫偏好吗？

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

在最大赞美偏好、噪声偏好、非马尔可夫偏好方面，该钻研的试验结果分别以下图 6、7、8 所示：

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练

感兴趣的读者可以阅读论文原文，了解更多钻研内容。

给TA打赏

共{{data.count}}人

人已打赏

RLHF SPO 卡内基梅隆大学

无需RLHF显著提高GPT-4/Llama2性能，北大团队提出Aligner对齐新范式

2024-2-8 16:34:00

华为盘问提议新范式MMQS入选WWW 2024，解锁鉴于人类反馈的多模态盘问提议

2024-2-15 16:08:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部