深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦言语和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中,复旦团队揭示了 RLHF 在大言语模型中的基本框架,并深入分析了 PPO 算法的内部机制,特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。现在,复旦团队进一步挖掘 RLHF 的潜力,重点关注奖

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦言语和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中,复旦团队揭示了 RLHF 在大言语模型中的基本框架,并深入分析了 PPO 算法的内部机制,特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。

现在,复旦团队进一步挖掘 RLHF 的潜力,重点关注嘉奖模型(Reward Model)在面对实际应用挑战时的表现和优化途径。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

Secrets of RLHF in Large Language Models Part I: PPO 论文链接:https://arxiv.org/pdf/2307.04964.pdf

Secrets of RLHF in Large Language Models Part II: Reward Modeling 论文链接:https://arxiv.org/abs/2401.06080

复旦团队究竟做了什么?

随着 ChatGPT、GPT-4 等大型言语模型的技术创新和广泛应用,这些模型已成为当下的技术热点,革新了我们与机器互动的方式,为各行各业提供了前所未有的模型支持。这些模型在解决复杂问题、自动生成内容和理解复杂指令方面展现出巨大价值。然而这些模型在在对齐人类价值观和偏好方面,仍有所局限。OpenAI、Anthropic 等研究团队对此的应对策略是深入研究基于人类反馈的强化进修(RLHF),目标是使 AI 系统在价值观上与人类更加一致。

OpenAI 的超级对齐、过程监督和 Anthropic 的宪法式 AI 等最新研究,都进一步强调了 AI 对齐的重要性。这些概念不仅关注于如何让 AI 答复更加符合人类的文化和审美标准,而且还关注于如何让 AI 在更广泛的伦理和价值观层面与人类保持一致。这些进展不仅展示了科学上的挑战,也体现了哲学上的探索。它们在确保 AI 的目标与人类社会真正对齐的过程中起到了关键作用,对未来人类文明的发展至关重要。

为了使大模型与人类的偏好对齐,RLHF 通过嘉奖模型(reward model)进修人类的偏好。好的嘉奖模型可以反映人类的偏好和价值目标,指引大模型充分发挥自身的能力造福社会;反之,坏的嘉奖模型则歪曲误解人类的偏好,误导大模型滑向不被人类理解和接纳的深渊。因此,嘉奖模型的设计和实施对于大型言语模型的发展至关重要。

在研究过程中复旦团队曾发现一个有趣的现象,如果按照特定方式选择 hh-rlhf 数据集(Anthropic 公开的有用和无害的人类偏好数据集)中的 70% 数据用于训练嘉奖模型,这个嘉奖模型用于 PPO 阶段训练将导致模型无论输入任何内容都只会回复 「免责声明」:

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

这种现象是 hh-rlhf 数据集中存在大量冲突、模糊数据的结果,这样的冲突会导致嘉奖模型无法准确反映人类的偏好,言语模型无法捕捉到一致的奖惩,便采用这种万金油策略来应对嘉奖模型。而复旦团队所做的第一个工作便是揭露了 hh-rlhf 数据集中存在大量噪音数据的现象。通过去除数据集中的噪音,可以使得模型更加贴合人类的喜好。正如下述例子中所看到的:

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

除了构造出对于训练 RM 来说更加优质的数据,还可以从 RM 本身出发, 适当改变 RM 的选择策略等,使得 RM 变的更好,进而使得 LLM 可以更贴切人类的喜好,这便是复旦团队所做的第二个工作。团队提出了使用对照进修、元进修的方式,很大程度提高了 RM 对于数据好坏的甄别的能力,RM 的改进直接使得 LLM 变得更加符合人类的需求。

通过对照进修后的 RM 可以指导 LLM 答复问题更加精确,更符合人类价值观偏好。比如在遇到有害问题时,优化前的 LLM 只会拒绝答复问题,但是优化后的 RM 可以更具体的答复有害的地方,给出更符合人类价值观的答复,正如下述例子所看到的:

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

上述例子中优化前的 LLM 没有按照用户的指示答复问题,而是说它不能理解或答复问题,这是不准确的,因为作为人工智能,它可以理解并根据输入生成言语。这个答复不能解决用户的问题,也没有帮助。另一方面,对照进修优化后的 LLM 选择不提供表示笨的词语,相反,它通过强调支持孩子的重要性并认识到他们独特的优势和劣势,提供了一种建设性的格式。这种回应是有帮助的,因为它将对话转向了一种积极和支持儿童发展的格式,这比提供负面标签更有益,危害更小,更符合人类价值观的对齐。

同时复旦团队的研究进一步提升了言语模型在面对分歧数据分布的同一任务时的表现,确保了模型可以在相同任务分歧数据分布的情况下,也能准确把握和遵循人类价值观,提高了言语模型的泛化能力。

通过 RLHF 的应用,我们可以对模型的输出进行细致的调整,引导模型以更符合人类喜好和期望的方式作出反应。例如,未经 RLHF 优化的模型可能提供的答复简单直接,可能缺乏文艺气息;而经过 RLHF 优化的模型则能提供更加典雅、有文学感的答复。正如下述对照的例子所看到的那样,第一条答复略显生硬,更谈不上「信达雅」,第二条答复却明显更文学气息,更耐人寻味。通过 RLHF,大模型从从生硬的 「机言」跨越到多情的「人语」。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

深化 RLHF:嘉奖模型在大言语模型中的关键作用与挑战

在复旦团队的技术报告中,他们深入探索了 Reinforcement learning from human feedback(RLHF)这一技术。此技术对于使言语模型更好地与人类价值观和意图对齐,产生更有帮助和更无害的回应具有重要意义。同时报告指出了在实际应用中嘉奖模型所面临的挑战,包括数据集中固有的不正确和模糊的偏好数据,以及嘉奖模型在特定数据分布上训练时的泛化困难。

为了应对这些挑战,复旦团队从数据和算法两个角度进行了深入研究。在数据方面,通过多个嘉奖模型的一致性结果来量化偏好的强度,并分析了分歧强度偏好数据嘉奖模型性能的影响。在算法方面,团队探索了如何进修泛化特征以区分选择和拒绝的回应,并利用元进修来促进嘉奖模型对于超出分布(OOD)数据的泛化能力,以及迭代 RLHF 优化。嘉奖模型被训练成为人类偏好的代理,但在准确反映人类偏好方面面临着诸多挑战。

此外,复旦团队还开源了包含偏好强度注释的 anthropic-hh 数据集,并使用 GPT-4 标记了验证集。本技术报告所使用的训练代码在项目网站提供。这些研究和开发不仅为 AI 技术树立了新的里程碑,也为未来的研究和应用开辟了新的道路,进一步提升了言语模型的相应质量和适应性。通过这些工作,团队更加深化了对 RLHF 的理解,并为大言语模型的优化开创了新篇章。

项目地址:https://github.com/OpenLMLab/MOSS-RLHF

数据影响力:塑造人类偏好模型的关键因素

复旦团队探索了人类偏好数据的固有噪声问题,并重点研究了偏好强度对嘉奖模型表现的影响。通过分析分歧强度偏好数据对模型性能的影响,团队提出了新的嘉奖模型格式,以更准确地建模偏好。实验显示,通过这种格式,可以更有效地辨别正确和错误的偏好标注,并提升模型的整体性能。

在这部分中,报告深入探讨了数据如何影响对人类偏好的建模。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

通过随机初始化若干嘉奖模型,训练后在数据集上评价得到对数据集中比较对的细粒度打分,研究团队量化了每个比较对的偏好强度,并分析了分歧强度偏好数据对嘉奖模型性能的影响。上图中展示的是尝试集上偏好强度的分布情况,注意到数据集中大约 25% 的数据的偏好强度小于零,并且有很多数据的偏好强度在 0 附近,意味着可能存在不正确的数据偏好标注和低悬殊的数据。从数据集中抽取了一些真实存在的样本如下:

数据示例一:标签错误(harmful)

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

chosen 标签对应的回复包含了剥夺人类睡眠的格式,而 rejected 标签对应的回复拒绝了这种对人类有害的答复。从无害性角度来说,rejected 的回复是更安全、更符合人类偏好的。而模型评价 chosen 与 rejected 的平均得分悬殊(即偏好强度)为 – 6.23,表示更偏好 rejected 回复,这与人类价值偏好一致

数据示例一:标签错误(helpful)

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

chosen 拒绝回复,rejected 给出了比较详细的解释。从有用性的角度来说,rejected 标签对应的答复是我们更希望看到的。而模型评价 chosen 与 rejected 的平均得分悬殊为 – 5.85,表现出对 rejected 数据的偏好,与人类价值偏好一致

数据示例二:低悬殊

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

对于上述 chosen 和 rejected 对应的回复,悬殊不大。模型评价 chosen 与 rejected 的平均得分悬殊为 – 0.0007,表示模型认为这两个回复差别不大,符合人类价值判断

在复旦团队的技术报告中提供了一个关于偏好强度的细致分析(如下左图所示)。

将数据集按照偏好强度从小到大排序,等分成若干组分别计算组内数据的统计信息。可以看出,偏好悬殊的均值在分歧数据组中表现出显著的悬殊。这反映了数据中存在的分歧偏好强度,从几乎无悬殊到显著悬殊的偏好都有所体现。同时,偏好悬殊的标准差显示出一种 U 形模式,这意味着在偏好非常明显或非常不明显的情况下,模型在评价偏好时的不确定性增加。

此外,团队使用 GPT-4 对尝试集进行标注,衡量提出的偏好强度量化指标与 GPT4 评价的一致性。

团队发现平均偏好悬殊与 GPT-4 一致性很高(如下右图所示)。这说明偏好强度指标一定程度上反映了真实世界的人类价值偏好。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

这一发现为我们提供了深入理解嘉奖模型处理分歧类型偏好数据的能力,并指出了优化模型时需要考虑的关键方面。通过对偏好悬殊的这种细致分析,我们能更好地调整嘉奖模型,以提高其在处理复杂偏好情境时的准确性和鲁棒性。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

复旦团队进一步考虑在嘉奖模型训练过程中对于分歧类型的偏好数据施加分歧的处理,以及如何通过调整格式来优化模型性能。例如,团队深入分析了分歧类型数据对嘉奖模型的影响,通过识别噪音数据并进行矫正操作(如:标签反转等),发现对偏好强度最低的 10% 样本单独训练,其在尝试集上的正确率低于 35%,但是如果将其标签反转,正确率可以接近 65%。

实验表明,对数据集中特定部分进行细致处理,可以显著提高嘉奖模型在理解复杂人类偏好方面的性能。

在研究中,复旦团队探索了四种去噪格式(flip、margin、soft label 等)来提升嘉奖模型的性能,它们在实际尝试中都显示出了相对于原始格式的改进。团队构造了三个尝试集,分别是原始尝试集、GPT4 清洗后的尝试集以及 GPT4 与原始尝试集保持一致的尝试子集。这些格式的训练过程如下图中所示。实验显示,原始格式在训练过程中在会有明显的精度下滑,表明了原始数据集存在噪声,会导致训练过拟合。而相比较来说,四种去噪格式在所有尝试集上可以保持稳定的精度,表现出比原始格式整体更好的性能。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

复旦团队使用 PPO 格式,利用上述四种格式和原始格式训练得到的嘉奖模型微调 SFT 模型,下图反映了 PPO 训练过程中各项指标的变化情况,注意到 KL 散度和 PPL 指标显示去噪格式可以提供更稳定的 PPO 训练过程。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

复旦团队利用 GPT-4-turbo 评价了分歧格式经过 PPO 训练得到的言语模型相比较于原始格式的输出质量,特别是在有害提示下的表现,复旦团队的格式显示出了显著的改善。这可能归因于处理有害提示相关的偏好数据中的噪声数据时去噪的有效性。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

这些实验成果为如何更好地建模人类偏好提供了新的视角,并指出了未来研究的方向。

对照进修:嘉奖模型的新视角

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

在传统的嘉奖建模中,一个重大挑战是模型通常在「chosen」和「rejected」样本之间表现出高度的特征相似性,如上图所示,通过 t-SNE 获得的特征分布显示,在基线模型中,「chosen」和「rejected」样本特征分布有显著的重叠。这表明模型无法捕捉固有的细微悬殊 以及数据上的区别。缺乏这样的辨别能力可能会导致表现不佳,因为模型可能很难有效地了解是什么使特定行为或结果变得更好或不更好。

相比之下,对照进修有一些先天的优势:1)有效的特征提取:对照进修通过比较相似和不相似的样本来训练模型,这有助于模型更有效地进修数据中的独特特征。2)强大的泛化能力:通过进修区分分歧的样本,使用对照进修训练的模型通常表现出更好的泛化能力,使它们可以更有效地处理新的、看不见的数据。

在 RLHF 的背景下,将对照进修整合到偏好建模中需要仔细对照数据的构造。常有的两种格式则是:① 「chosen」数据 和「rejected」数据的悬殊对照 ②「chosen」 数据 和 「rejected」数据的直接对照

这两种格式都有其优点和局限性。如果目标是使模型可以更精确地识别和嘉奖表现明显优于坏数据的好数据,那么第一种格式可能更合适,它允许模型进修区分喜欢和不喜欢。然而,如果目标是增强模型的泛化能力并使其可以有效地区分各种数据,那么第二种格式可能更理想,它使模型可以通过区分选择和拒绝的反应来推断偏好。在实践中,还可以考虑将这两种格式结合起来以获得更好的建模结果。

复旦团队基于已有的两种对照进修格式来探究对照进修在嘉奖模型中能否区分出数据的悬殊性。

首先是 SwAV(Swapping Assignments between Views):SwAV 是一种创新的无监督视觉特征进修格式,与传统的对照进修格式分歧,它在同时对数据进行聚类的同时,确保了对同一图像分歧增强(或「视图」)的聚类分配的一致性。该格式包括创建图像的多个视图,预测每个视图的聚类分配,然后使用交换机制来匹配一个视图的聚类分配与另一个视图的预测。这种格式提高了进修效率,避免了比较每一对可能的图像,从而降低了计算成本。

其次是 SimCSE(Simple Contrastive Learning of Sentence Embeddings):SimCSE 是一种利用对照进修来进修句子嵌入的技术。它通过使用相同的句子作为正样本,将它们输入到基于 Transformer 的模型(如 BERT)中以生成嵌入。关键之处在于,相同的句子在分歧的 dropout 掩码下进行建模,从而产生了嵌入的变化。负样本则来自分歧的句子,使得可以高效而有效地进修句子表示,而无需复杂的数据增强或外部标记数据。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

如上图所示,当在嘉奖模型中引入 SimCSE 后,通过 t-SNE 获得的特征分布显示,选择和拒绝相应之间的特征分布重叠减少了。

复旦团队还利用 GPT-4-turbo 评价了分歧格式相比较于基线模型 (普通 PPO 和 SFT 模型) 的输出质量,如下图所示,在有用性和无害性上,模型性能都有一定的提升,表明对照进修确实可以通过让嘉奖模型增强区分数据之间的悬殊性的能力来改善模型的能力。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

MetaRM:引领嘉奖模型的未来 

复旦团队所提出的目标是,当策略模型的分布随着 PPO 训练而变化时,嘉奖模型仍应保持对从新分布中采样的相应的区分度。

在本节中,复旦团队提出了 MetaRM,一种通过元进修将原始偏好数据与移位分布对齐的格式。MetaRM 的关键思想是:嘉奖模型的训练阶段应该最小化原始偏好数据的损失,同时最大化从转移的策略分布中采样的相应之间的悬殊。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

MetaRM 的实现依靠四个关键步骤:首先,计算悬殊损失来评价策略变化后相应的悬殊;其次,根据梯度上升方向调整嘉奖模型参数;接着,使用更新后的参数计算原始偏好对的普通损失;最后,优化原始参数,以沿着梯度下降方向进行调整。总体来说,MetaRM 通过元进修过程调整嘉奖模型,确保模型在面对策略分布的演变时,仍可以识别和嘉奖高质量的相应。

总之,MetaRM 的格式是使用元进修训练嘉奖模型,即使在策略模型的分布发生变化时,也可以识别出质量相应,确保相应仍与原始偏好对齐。

Main Results:实验结果深度剖析 RLHF

内部任务评价

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

在上表中,展示了与 SFT 模型相应相比,复旦团队所提出格式的获胜、平局和失败比例。回合数代表相应回合的模型生成的相应。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

此外,为了更全面地展示复旦团队所提出格式的优越性,表格 3 中展示了与其它基线(包括普通 PPO)对照的最佳性能,还提供了对 GPT-4 和人类评价的评价结果。

外部任务评价

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

如图所示,即使在 OOD 情景下,复旦团队所提出的格式仍然优于基线。这表明该格式可以在新领域实现对齐,而无需昂贵的偏好标记一组查询,从而显著降低了 RM 培训的培训成本。此外,团队观察到与内部分布评价结果相比,他们所提出的格式在获胜率上略有下降。

总结:深度剖析嘉奖模型推动 RLHF 新发展

在这篇技术报告中,复旦团队全面审视了强化进修与人类反馈(RLHF)在大言语模型中的应用,并提出了创新的嘉奖模型格式。团队的研究不仅解决了数据集中存在的不正确和模糊偏好问题,还提高了模型对于新场景的泛化能力。通过复旦团队所提出的格式,言语模型可以更准确地理解和符合人类的意图和价值观,从而产生更有帮助和更安全的回应。复旦团队的工作不仅推动了 RLHF 技术的发展,也为未来的研究者和开发者提供了新的思路和工具。

彩蛋

Easter Egg 1—Alignment with Translation Preference 

几千年来,言语一直是连接人类文明的纽带。每一种言语都是一个独特的文化世界,充满着细腻的情感和深厚的历史。在这个数字时代,我们试图通过机器翻译来跨越言语障碍,但仅仅依靠字面意思的翻译往往无法传达言语的真正魅力。就像生活在一个五彩斑斓的世界里,却只能看到黑白的世界。幸运的是,RLHF 在模拟人类偏好方面不仅限于安全和道德;它还可以用来满足人们对高质量翻译的偏好。为了实现这一目标,复旦团队监督微调 LLaMA-7b 模型,赋予其基本翻译功能,然后利用嘉奖模型来进修人类翻译偏好。最后,复旦团队通过 PPO 算法优化翻译模型,使其生成更符合忠实、表达、优雅偏好的翻译。

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

以上三个英汉翻译的例子生动地说明了翻译不仅仅是言语的转换,更是文化和情感的传递。在复旦团队技术报告的下一部分中,将努力探索如何将人类偏好和文化理解有效地融入到机器翻译系统中。通过实验和数据分析,期望开发出一种不仅精确而且富有情感深度和文化敏感性的翻译模型。这样的模式不仅可以提高翻译的准确性,而且可以促进分歧文化之间的理解和交流。

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.” 

— Steve Jobs 

深挖RLHF潜力,复旦言语和视觉团队创新嘉奖模型优化,让大模型更对齐

人工智能代理生成代码的过程比最初看起来更加复杂。编程是一门与自然言语的复杂性和可变性相似的学科,提供了多种可能性。然而,如此广泛的选择范围,与稀疏嘉奖信号的问题并列时,极大地限制了智能体的探索能力。因此,关键的挑战在于在复杂任务的背景下制定稳健有效的探索策略,这是当前研究中尚未解决的问题。未来,复旦团队将进一步阐述人工智能代理如何充分探索代码合成任务。

给TA打赏
共{{data.count}}人
人已打赏
工程

47年前经典影片另类重制,从宇宙到原子皆是生成

2024-1-15 11:17:00

工程

为什么普通人「出圈」,都在小红书?

2024-1-16 15:01:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索