RLHF

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿
大模型回答人类的对话内容，究竟有多少「智能」成分在里面？本周五，知名 AI 领域学者，OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 发表观点：「人们对『向人工智能询问某件事』的解释过于夸张」，引发网友热议。 Karpathy 称：人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。
理论
- 974
- 0
机器之心12月1日
LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题
让 LLM 在自我进化时也能保持对齐。我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足，就需要突破许多限制，包括可用数据和规模和质量以及有用新信息的增长率。
工程
- 15
- 0
机器之心11月5日
综合RLHF、DPO、KTO优势，统一对齐框架UNA来了
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文主要作者：1. 王智超：本科就读于厦门大学土木工程系，研究生博士…
工程
- 6
- 0
机器之心10月9日
AI会「说谎」，RLHF竟是帮凶
虽然 RLHF 的初衷是用来控制人工智能（AI），但实际上它可能会帮助 AI 欺骗人类。语言模型 (LM) 可能会产生人类难以察觉的错误，尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ，可能会加剧这个问题：为了获得更高的奖励，LM 可能会更好地说服人类认为它们是正确的，即使它们是错误的。这对人类评估者来说是一个巨大的挑战，因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难…
工程
- 2
- 0
机器之心9月23日
Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对
RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。AI 大牛 Karpathy 又来科普人工智能概念了。昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」Karpathy 的全文解释如下：RLHF 是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为 RLHF 只是勉强算得上 RL…
理论
- 11
- 0
机器之心8月9日
首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效
AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]文章作者皆为来自剑桥大学语言技术实验室，一作为三年级博士生刘胤宏，导…
工程
- 11
- 0
机器之心8月4日
仅靠开源数据复刻出LLaMA3指令进修效果，在线迭代RLHF全过程解决方案来了
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者熊伟是伊利诺伊香槟分校的在读博士生，其导师为 Tong Zh…
工程
- 24
- 0
机器之心5月18日
ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景
RLHF 通过进修人类偏好，可以在难以手工设想赞美函数的复杂决策工作中进修到正确的赞美引导，得到了很高的关注，在不同情况中选择合适的人类反应典型和不同的进修方法至关重要。然而，当前钻研社区缺乏可以支持这一需求的标准化标注平台和统一基准，量化和比较 RLHF 的最新进展是有挑战性的。本文中，天津大学深度强化进修实验室的钻研团队推出了面向现实决策场景的 Uni-RLHF 平台，这是一个专为 RLHF …
工程
- 8
- 0
机器之心3月27日
MATRIX：社会仿照推动大模型价值自对齐，比GPT4更「体贴」
随着大言语模型（LLMs）在近年来取得显著进展，它们的能力日益增强，进而引发了一个关键的成绩：如何保证他们与人类价值观对齐，从而避免潜在的社会负面作用？模型如 ChatGPT 依赖于鉴于人类反馈的强化学习（RLHF），这一步骤通过鼓励标注者偏好的回覆并惩罚不受欢迎的反馈，提出了一种解决方案。然而，RLHF 面临着成本高昂、难以优化等成绩，以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类…
工程
- 4
- 0
机器之心2月27日
谷歌提出全新RLHF格式：清除赞美模型，且无需匹敌性训练
效果更稳定，实现更简朴。大型语言模型（LLM）的成功离不开「鉴于人类反馈的加强进修（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个赞美模型，通过分类目标为前者分配更高的分数。然后通过某种加强进修算法优化这个赞美函数。然而，赞美模型的关键要素可能会产生一些不良影响。来自卡内基梅隆大学（CMU）和 Google Research 的钻研者联合提出了一种简朴…
工程
- 32
- 0
机器之心2月15日
深挖RLHF潜力，复旦言语和视觉团队创新嘉奖模型优化，让大模型更对齐
继第一份大模型对齐技术报告（Secrets of RLHF in Large Language Models Part I）获 NeurIPS 2023 workshop best paper 后，第二份报告强势归来，复旦言语和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中，复旦团队揭示了 RLHF 在大言语模型中的基本框架，并深入分析了 PPO 算法的内部机制，特…
工程
- 6
- 0
机器之心1月15日
斯坦福提出比照偏好进修：无需加强进修即可从人类反馈中进修
我们知道，ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的，存在难以处理的优化困难。本文中，斯坦福大学等研究机构的团队探索用「比照偏好进修」替换掉「加强进修」，在速度和本能上都有不俗的浮现。在模型与人类意图对齐方面，根据人类反馈的加强进修（RLHF）已经成为一大流行范式。通常来说，RLHF 算法的工作过程分为两个阶段：一、利用人类偏好进修一个嘉奖函数；二、…
工程
- 5
- 0
机器之心23年11月13日