RLHF

老婆饼里没有老婆，RLHF里也没有真正的RL

老婆饼里没有老婆，夫妻肺片里没有夫妻，RLHF 里也没有真正的 RL。在最近的一篇博客中，德克萨斯大学奥斯汀分校助理教授 Atlas Wang 分享了这样一个观点。博客链接：，RLHF（基于人类反馈的强化学习）和其他类似的方法并没有为大型语言模型（LLM）带来真正的强化学习（RL），因为它们缺乏 RL 的核心特征：持续的环境交互和长期目标的追求。

1/8/2025 6:23:00 PM

机器之心

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

大模型回答人类的对话内容，究竟有多少「智能」成分在里面？本周五，知名 AI 领域学者，OpenAI 创始成员、特斯拉前 AI 高级总监 Andrej Karpathy 发表观点：「人们对『向人工智能询问某件事』的解释过于夸张」，引发网友热议。 Karpathy 称：人工智能基本上是通过模仿人工标注数据来进行训练的语言模型。

12/1/2024 2:03:00 PM

机器之心

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

让 LLM 在自我进化时也能保持对齐。我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足，就需要突破许多限制，包括可用数据和规模和质量以及有用新信息的增长率。

11/5/2024 1:32:00 PM

机器之心

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]论文主要作者：1. 王智超：本科就读于厦门大学土木工程系，研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士，现任职于 Salesforce，专注于 LLM Align

10/9/2024 2:18:00 PM

机器之心

AI会「说谎」，RLHF竟是帮凶

虽然 RLHF 的初衷是用来控制人工智能（AI），但实际上它可能会帮助 AI 欺骗人类。语言模型 (LM) 可能会产生人类难以察觉的错误，尤其是在任务复杂的情况下。作为最近流行的后训练方法 RLHF ，可能会加剧这个问题：为了获得更高的奖励，LM 可能会更好地说服人类认为它们是正确的，即使它们是错误的。这对人类评估者来说是一个巨大的挑战，因为人类想要发现 LM 输出中那些似乎正确的细微错误非常困难。在正确的答案和看起来正确的答案之间出现了差距（gap）。这种差距可能会导致 RLHF 奖励黑客攻击：为了获得更高的奖励

9/23/2024 2:44:00 PM

机器之心

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

RLHF 与 RL 到底能不能归属为一类，看来大家还是有不一样的看法。AI 大牛 Karpathy 又来科普人工智能概念了。昨日，他发推表示，「基于人类反馈的强化学习（RLHF）只是勉强算得上是强化学习（RL）。」Karpathy 的全文解释如下：RLHF 是训练大语言模型（LLM）的第三个（也是最后一个）主要阶段，前两个阶段分别是预训练和监督微调（SFT）。我认为 RLHF 只是勉强算得上 RL，它没有得到广泛的认可。RL 很强大，但 RLHF 却不然。让我们看看 AlphaGo 的例子，它是使用真正的 RL 训

8/9/2024 2:17:00 PM

机器之心

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]文章作者皆为来自剑桥大学语言技术实验室，一作为三年级博士生刘胤宏，导师为教授 Nigel Collier 和 Ehsan Shareghi。他的研究兴趣是大模型和文本评估，数据生成等。共同

8/4/2024 9:45:00 AM

机器之心

仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者熊伟是伊利诺伊香槟分校的在读博士生，其导师为 Tong Zhang 与 Nan Jiang。他的主要研究方向是 RLHF 与机器学习理论。邮箱: [email protected]

5/18/2024 3:36:00 PM

机器之心

ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

RLHF 通过学习人类偏好，能够在难以手工设计奖励函数的复杂决策任务中学习到正确的奖励引导，得到了很高的关注，在不同环境中选择合适的人类反馈类型和不同的学习方法至关重要。然而，当前研究社区缺乏能够支持这一需求的标准化标注平台和统一基准，量化和比较 RLHF 的最新进展是有挑战性的。本文中，天津大学深度强化学习实验室的研究团队推出了面向现实决策场景的 Uni-RLHF 平台，这是一个专为 RLHF 量身定制的综合系统实施方案。它旨在根据真实的人类反馈提供完整的工作流程，一站式解决实际问题。论文题目：Uni-RLHF:

3/27/2024 6:48:00 PM

机器之心

MATRIX：社会模拟推动大模型价值自对齐，比GPT4更「体贴」

随着大语言模型（LLMs）在近年来取得显著进展，它们的能力日益增强，进而引发了一个关键的问题：如何确保他们与人类价值观对齐，从而避免潜在的社会负面影响？模型如 ChatGPT 依赖于基于人类反馈的强化学习（RLHF），这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈，提出了一种解决方案。然而，RLHF 面临着成本高昂、难以优化等问题，以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖，Anthropic 推出了 Constitutional AI，旨在要求语言模型在回答时遵循一系列人类规则。

2/27/2024 2:47:00 PM

机器之心

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

效果更稳定，实现更简单。大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF 可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的行为，训练一个奖励模型，通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而，奖励模型的关键要素可能会产生一些不良影响。来自卡内基梅隆大学（CMU）和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化（Self-Play Preference Op

2/15/2024 4:00:00 PM

机器之心

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

继第一份大模型对齐技术报告（Secrets of RLHF in Large Language Models Part I）获 NeurIPS 2023 workshop best paper 后，第二份报告强势归来，复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中，复旦团队揭示了 RLHF 在大语言模型中的基本框架，并深入分析了 PPO 算法的内部机制，特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。现在，复旦团队进一步挖掘 RLHF 的潜力，重点关注奖

1/15/2024 4:23:00 PM

机器之心

斯坦福提出对比偏好学习：无需强化学习即可从人类反馈中学习

我们知道，ChatGPT 的成功离不开 RLHF 这个「秘密武器」。不过 RLHF 并不是完美无缺的，存在难以处理的优化难题。本文中，斯坦福大学等研究机构的团队探索用「对比偏好学习」替换掉「强化学习」，在速度和性能上都有不俗的表现。在模型与人类意图对齐方面，根据人类反馈的强化学习（RLHF）已经成为一大流行范式。通常来说，RLHF 算法的工作过程分为两个阶段：一、使用人类偏好学习一个奖励函数；二、通过使用强化学习优化所学习的奖励来对齐模型。RLHF 范式假定人类偏好的分布遵照奖励，但近期有研究认为情况并非如此，人类

11/13/2023 11:56:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

RLHF

老婆饼里没有老婆，RLHF里也没有真正的RL

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

综合RLHF、DPO、KTO优势，统一对齐框架UNA来了

AI会「说谎」，RLHF竟是帮凶

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

ICLR 2024 | RLHF有了通用平台和基准，天大开源，专攻现实决策场景

MATRIX：社会模拟推动大模型价值自对齐，比GPT4更「体贴」

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

斯坦福提出对比偏好学习：无需强化学习即可从人类反馈中学习