无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

对齐新范式:批改未对齐的谜底比生成对齐的回覆更容易。背景大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。尽管鉴于人类反馈的强化进修(RLHF)提供了一种解决方案,但它面临复杂的训练架构、对参数的高敏感性,以及赞美模型在不同数据集上的不稳定性等多重挑战。这些因素导致 RLHF 技术实现难、奏效难、复现难。为了克服这些挑战,北京大学团队提出了一种新的高效对齐范式 ——

对齐新范式:批改未对齐的谜底比生成对齐的回覆更容易。

背景

大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。

尽管鉴于人类反馈的强化进修(RLHF)提供了一种解决方案,但它面临复杂的训练架构、对参数的高敏感性,以及赞美模型在不同数据集上的不稳定性等多重挑战。这些因素导致 RLHF 技术实现难、奏效难、复现难

为了克服这些挑战,北京大学团队提出了一种新的高效对齐范式 ——Aligner,其核心在于进修谜底对齐与未对齐之间的批改残差,从而绕过繁琐的 RLHF 流程。

借鉴残差进修和可扩展监督的思想,Aligner 通过简单的复制和残差批改步骤简化了对齐流程,应用 Seq2Seq 模型进修隐式残差,以优化对齐效果。

相较于 RLHF 需要训练多个模型的复杂性,Aligner 仅通过在待对齐模型后附加一个额外模块即可实现对齐,且所需计算资源主要取决于对齐效果的期望,并非上游模型的规模。实验表明,应用 Aligner-7B 能显著提高 GPT-4 的帮忙性和安全性,分别增加了 17.5% 和 26.9%。

此外,利用 Aligner 框架,作家通过弱模型(Aligner-13B)监督信号增强强模型(Llama-70B)性能,实现了 weak-to-strong 泛化,为超级对齐提供了实践方案。

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

论文地址:https://arxiv.org/abs/2402.02416

项目主页 & 开源地址:https://aligner2024.github.io

题目:Aligner : Achieving Efficient Alignment through Weak-to-Strong Correction

什么是 Aligner?

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

鉴于核心洞察:

Correcting unaligned answer is easier than generating aligned answers.

批改未对齐的回覆要比生成对齐的回覆容易。

作为一种高效的对齐步骤,Aligner 具备以下优秀特性:

作为一个自回归 Seq2Seq 模型,Aligner 在问题-谜底-批改后的谜底(Query-Answer-Correction, Q-A-C)数据集上训练,进修对齐与未对齐谜底之间的差异,从而实现了更精准的模型对齐。例如,在对齐 70B LLM 时,Aligner-7B 大规模降低了训练参数量,相较于 DPO 小 16.67 倍,比 RLHF 小 30.7 倍。

Aligner 范式实现了从弱到强的泛化,采用高较小参数量的 Aligner 模型监督信号微调参数量大的 LLMs ,显著提高了强模型的性能。例如,利用 Aligner-13B 监督下微调 Llama2-70B,其帮忙性和安全性分别提高了 8.2% 和 61.6%。

由于 Aligner 即插即用的特性以及它对模型参数并不敏感,它能够对齐如 GPT3.5、GPT4 和 Claude2,这些无法获取参数的模型。仅一次训练,Aligner-7B 对齐并提高了包括闭源、开源及安全 / 未安全对齐模型在内的 11 种模型的帮忙性和安全性。其中 Aligner-7B 显著提高了 GPT-4 的帮忙性和安全性,分别提高了 17.5% 和 26.9%。

Aligner 总体性能表现

作家展现了各个尺寸的 Aligner(7B,13B,70B)在鉴于 API 的模型、开源模型(包括经过安全对齐和未经过安全对齐)均能提高性能表现。总体来说,随着模型变大,Aligner 的性能逐步提高,并且批改时所能提供的信息密度逐渐增大,这也使得批改后的谜底更加安全且具有帮忙性。

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

怎么训练一个 Aligner 模型?

1.Query-Answer (Q-A) 数据收集

作家从各种开源数据集中获取 Query,包括 Stanford Alpaca、ShareGPT、HH-RLHF 以及其他用户共享对话。这些问题经历了重复模式去除和质量过滤的流程,用于后续的谜底和更正的谜底生成。未批改的回覆则是应用各种开源模型生成的,如 Alpaca-7B、Vicuna-(7B,13B,33B)、Llama2-(7B,13B)-Chat, and Alpaca2-(7B,13B)。

2. 谜底批改

作家应用 GPT-4、Llama2-70B-Chat 和人工标注来根据大语言模型的 3H 标准(帮忙性、安全性、诚实性)来批改 Q-A 数据集中的谜底。

对于已符合标准的谜底,保持原样。修改流程鉴于一系列定义明确的原则,从而为 Seq2Seq 模型的训练建立了约束条件,重点在于提高回覆的帮忙性和安全性。谜底的批改前后分布变化明显,下图清晰展示了修改对数据集的影响:

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

3. 模型训练

鉴于上述流程,作家构建了新的批改数据集无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式,其中无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式表示用户的问题,无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式是问题的原始谜底,无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式是根据既定原则批改的谜底。

模型训练流程相对简单。作家训练一个由无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式参数化的条件 Seq2Seq 模型无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式,使得原始谜底无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式重分布到对齐的谜底。

鉴于上游大语言模型的对齐谜底生成流程为:

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

训练的 loss 如下:

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

其中第 2 项与 Aligner 参数无关,Aligner 的训练目标可以推导为:

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

下图动态地展示了 Aligner 的中间流程:

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

值得注意的是,Aligner 在训练和推理阶段都不需要访问上游模型的参数。Aligner 的推理流程只需要获取用户的问题和上游大语言模型生成的初始谜底,然后生成更符合人类价值观的谜底。

批改现有谜底而不是直接回覆,这使得 Aligner 能够容易地与人类价值观对齐,从而显著降低了对模型能力的要求。

Aligner 与现有对齐范式对比

Aligner vs SFT

与 Aligner 相反,SFT 直接从 Query 语义空间创建到 Answer 语义空间的跨域映射,这个流程进修依赖于上游模型来推断和模拟语义空间中的各种上下文,这比进修批改信号要难得多。

Aligner 训练范式可以被认为是一种残差进修(残差批改)形式,作家在 Aligner 中创建 「复制(copy)+ 批改(correct)」进修范式。因此,Aligner 在本质上创建了从回覆语义空间到批改的回覆的语义空间的残差映射,这两个语义空间在分布上更接近。

为此,作家从 Q-A-C 训练数据集中以不同比例构造了 Q-A-A 数据,训练 Aligner 进行恒等映射进修(也称为 copy mapping)(称为预热步骤)。在此基础上,应用整个 Q-A-C 训练数据集进行训练,这种残差进修范式,也被 ResNet 中采用用来解决堆叠过深的神经网络导致的梯度消失的问题。实验结果表明:当预热比例为 20% 时,模型能够获得最佳表现。

Aligner vs RLHF

RLHF 通过在人类偏好数据集上训练赞美模型(RM),并利用这个赞美模型来进行 PPO 算法微调 LLMs,从而使 LLMs 和人类偏好的行为相一致。

具体而言,赞美模型需要将人类偏好数据从离散映射到连续的数值空间以进行优化,但是相较于在文本空间具有较强泛化能力的 Seq2Seq 模型,这类数值赞美模型在文本空间的泛化能力较弱,从而导致了 RLHF 在不同的模型上效果不稳定。

而 Aligner 通过训练一个 Seq2Seq 模型来进修对齐和未对齐谜底之间的差异性(残差),从而有效的避开了 RLHF 流程,并取得了比 RLHF 更具备泛化性的表现。

Aligner vs. Prompt Engineering

提示词工程(Prompt Engineering )是激发 LLMs 能力的常见步骤,然而这种步骤存在着一些关键问题,如:难以设计 prompt,且需要针对不同模型进行不同设计,最终效果依赖于模型的能力,当模型能力不足以解决任务时,可能需要多次迭代,浪费上下文窗口,小模型的上下文窗口受限会影响到提示词工程的效果,而对于大模型而言,占用过长的上下文极大增加了训练的成本。

Aligner 本身可以支持任意模型的对齐,经过一次训练可以对齐 11 类不同类型的模型,并且能够不占用原模型的上下文窗口。值得注意的是,Aligner 可以与现有的提示词工程步骤无缝结合起来,达到 1+1>2 的效果。

总的来说:Aligner 展现出了以下显著优势:

1.Aligner 训练更加简单。相较于 RLHF 复杂的赞美模型进修及鉴于该模型的强化进修(RL)微调流程,Aligner 的实现流程更为直接且易于操作。反观 RLHF 中涉及的多项工程调参细节以及 RL 算法的固有不稳定性和超参数敏感性,Aligner 大大简化了工程复杂度。

2.Aligner 训练数据少且对齐效果明显。鉴于 20K 数据训练一个 Aligner-7B 的模型,可以提高 GPT-4 在帮忙性方面 12% 以及安全性方面 26%,并提高 Vicuna 33B 模型 29% 的帮忙性以及 45.3% 的安全性,而 RLHF 需要更多的偏好数据,并需要精细化的调参才有望达到这个效果。

3.Aligner 不需要接触模型权重。虽然 RLHF 在模型对齐方面被证明有效,但依赖于对模型直接训练。面对未开源的 API-based 模型如 GPT-4 及其在下游任务中的微调需求,RLHF 的适用性受限。相反,Aligner 无需直接操作模型原始参数,通过将对齐需求外置于一个独立的对齐模块中,实现了灵活的对齐方式。

4.Aligner 对模型类型无感。在 RLHF 框架下,针对不同模型(如 Llama2,Alpaca)的微调不仅需要重新收集偏好数据,还需在赞美模型训练及 RL 阶段调整训练参数。而 Aligner 通过一次性训练,可以支持任意模型的对齐。例如,仅需要在批改数据集上训练一次,Aligner-7B 可以对齐 11 种不同模型(包括开源模型、API 模型如 GPT),并在帮忙性和安全性方面分别提高 21.9% 和 23.8% 性能。

5.Aligner 对训练资源的需求更加灵活。RLHF 微调一个 70B 的模型仍然对计算资源有着极高的要求,需要数百个 GPU 卡才能进行。因为 RLHF 步骤还需要额外加载与模型参数量相当的赞美模型、Actor 模型及 Critic 模型。因此,就单位时间内的训练资源消耗而言,RLHF 实际上需要比预训练更多的计算资源。

相较之下,Aligner 提供了更为灵活的训练策略,允许用户根据自身的实际计算资源情况,灵活选择 Aligner 的训练规模。例如,针对一个 70B 模型的对齐需求,用户可以根据实际可用的资源选择不同规模的 Aligner 模型(7B、13B、70B 等),以实现目标模型的有效对齐。

这种灵活性不仅降低了对计算资源的绝对需求,也为用户提供了在有限资源下进行高效对齐的可能性。

Weak-to-strong Generalization

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

Weak-to-strong generalization 讨论的问题在于能否应用弱模型的标签训练强模型,使得强模型在性能上有所提高。OpenAI 应用这一类比旨在解决超对齐(SuperAlignment) 的问题,具体来说,他们应用真值标签(groud truth)训练弱模型。

OpenAI 的研究人员进行了一些初步实验,例如在文本分类(text classfication)的任务上,训练数据集被分为了两部分,前半部分的输入和真值标签被用来训练弱模型,而后半部分的训练数据仅保留输入,标签由弱模型产生。在训练强模型时仅应用弱模型产生的弱标签为强模型提供监督信号。

应用真值标签训练弱模型是为了使弱模型获得解决相应任务的能力,但是用于产生弱标签的输入和训练弱模型的输入并不相同。这种范式类似于 「教学」 的概念,即用弱模型来指导强模型。

作家鉴于 Aligner 的性质,提出了一种新颖的 weak-to-strong generalization 范式。

作家的核心观点是让 Aligner 充当 「站在巨人肩膀上的监督员」。与 OpenAI 直接监督「巨人」的步骤不同,Aligner 将通过弱到强的批改,批改更强的模型在这一流程中提供更准确的标签。

具体来说,在 Aligner 的训练流程中,批改数据包含 GPT-4、人类标注员和更大的模型标注。随后,作家应用 Aligner 在新的 Q-A 数据集上生成弱标签(即批改);进而应用弱标签对原模型进行微调。

实验结果表明这一范式可以进一步提高模型的对齐表现。

实验结果

Aligner vs SFT/RLHF/DPO

作家应用 Aligner 的 Query-Answer-Correction 训练数据集,分别通过 SFT/RLHF/DPO 步骤对 Alpaca-7B 进行微调。

进行性能评估时,应用开源的 BeaverTails 和 HarmfulQA 的测试 prompt 数据集,将微调后模型生成的回覆与对原始 Alpaca-7B 模型的回覆应用 Aligner 进行批改后产生的回覆,在帮忙性和安全性方面进行比较,结果如下:

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

实验结果表明,Aligner 对比诸如 SFT/RLHF/DPO 这样成熟的 LLM 对齐范式具有明显的优势,在帮忙性和安全性这两个指标上均有显著领先。

分析具体的实验案例,可以发现,应用 RLHF/DPO 范式微调的对齐模型,为了提高安全性可能更倾向于产生保守的回覆,而在提高帮忙性的流程中又无法兼顾安全性,导致回覆中的危险信息增加。

Aligner vs Prompt Engineering

对比 Aligner-13B 与 CAI / Self-Critique 步骤对同一上游模型的性能提高,实验结果如下图所示:Aligner-13B 对 GPT-4 在帮忙性和安全性两方面的提高,均高于 CAI/Self-Critique 步骤,这说明 Aligner 范式相较于常用 prompt engineering 步骤具有明显优势。

值得注意的是,实验中仅在推理时应用 CAI prompts,以鼓励其自我修改谜底,这也是 Self-Refine 的形式之一。

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

除此之外,作家还进行了进一步探究,他们对应用 CAI 步骤批改后的回覆再经过 Aligner 进行批改,并将经过 Aligner 前后的回覆进行直接比较,实验结果如下图所示。

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

Method A:CAI + Aligner Method B:CAI only

应用 Aligner 对 CAI 批改后的回覆进行二次批改后,回覆在不损失安全性的同时,在帮忙性方面的获得了极为显著的提高。这说明 Aligner 不仅在单独应用时具有很强的竞争力,还能与其他现有对齐步骤结合,进一步提高其性能。

Weak-to-strong Generalization

无需RLHF显著提高GPT-4/Llama2性能,北大团队提出Aligner对齐新范式

Method:weak-to-strong 训练数据集由(q,a,a′)三元组组成,其中 q 表示来自 Aligner 训练数据集 – 50K 的问题,a 表示 Alpaca-7B 模型生成的谜底,a′表示 Aligner-7B 给定的对齐谜底(q,a)。与仅利用 a′作为基本事实标签的 SFT 不同,在 RLHF 和 DPO 训练中,a′被认为比 a 更好。

作家在新的 Q-A 数据集上用 Aligner 对原回覆进行批改,将批改后的回覆作为弱标签,并用这些弱标签作为监督信号训练更大尺寸的模型。这一流程和 OpenAI 的训练范式是类似的。

作家通过三种步骤鉴于弱标签对强模型进行训练:SFT、RLHF 和 DPO。上表的实验结果显示,通过 SFT 微调上游模型时,Aligner-7B 和 Aligner-13B 的弱标签在所有场景中都提高了 Llama2 系列强模型的性能。

展望:Aligner 潜在的研究方向

Aligner 作为一种创新的对齐步骤,拥有巨大的研究潜力。在论文中,作家提出了几种 Aligner 的应用场景,包括:

1. 多轮对话场景的应用。在多轮对话中,面对稀疏赞美的挑战尤为突出。在问答式对话(QA)中,通常只有在对话结束时才能获得标量形式的监督信号。

这种稀疏性在多轮对话(例如连续的 QA 场景)中的问题会进一步放大,导致鉴于强化进修的人类反馈(RLHF)难以发挥效果。研究 Aligner 在改善多轮对话对齐效果方面的潜力,是一个值得深入探索的领域。

2. 人类价值向赞美模型的对齐。在鉴于人类偏好的赞美模型构建和大型语言模型(LLMs)微调的多阶段流程中,确保 LLMs 与特定的人类价值(例如公平性、共情等)对齐面临巨大挑战。

通过将价值对齐任务交由模型外的 Aligner 对齐模块处理,并利用特定语料训练 Aligner,不仅为价值对齐提供了新的思路,还使 Aligner 能够批改前置模型的输出以反映特定的价值观。

3.MoE-Aligner 的流式化和并行处理。通过将 Aligner 专门化处理并集成,可以创建更强大且全面的混合专家(MoE)Aligner,这种 Aligner 能够满足多重混合安全及价值对齐需求。同时,进一步提高 Aligner 的并行处理能力,以减少推理时间的损耗,是一个可行的发展方向。

4. 模型训练流程中的融合。通过在特定的权重层后集成 Aligner 层,可以实现对模型训练流程中输出的实时干预。这种步骤不仅能提高对齐效率,还有助于优化模型训练流程,实现更高效的模型对齐。

团队介绍

该工作由北京大学人工智能研究院 AI 安全与治理中心杨耀东课题组独立完成。团队深耕大语言模型的对齐技术,包括开源百万级安全对齐偏好数据集 BeaverTails(NeurIPS 2023)、大语言模型的安全对齐算法 SafeRLHF(ICLR 2024 Spotlight),相关技术已被多个开源模型采纳。撰写业内首个人工智能对齐的全面性综述并配套了资源网站 www.alignmentsurvey.com(点击原文可直接跳转),系统性的阐述了 Learning from Feedback、Learning under Distribution Shift,Assurance,Governance 四个视角下的 AI 对齐问题。该团队关于对齐与超对齐的观点被采编为 2024 年第 5 期《三联生活周刊》封面。

给TA打赏
共{{data.count}}人
人已打赏
工程

斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了

2024-2-8 16:29:00

工程

谷歌提出全新RLHF格式:清除赞美模型,且无需匹敌性训练

2024-2-15 16:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索