用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

如何让 LLM “忘记” 学到的有害内容？随着大型语言模型（LLM）的发展，从业者面临更多挑战。如何避免 LLM 产生有害回复？如何快速删除训练数据中的版权保护内容？如何减少 LLM 幻觉（hallucinations，即错误事实）? 如何在数据政策更改后快速迭代 LLM？这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下，对于 LLM 的安全可信部署至关重要。目前业界的主流解决方案为 LLM 对齐 (alignment)，即通过建立对比数据（正样本和负样本）用强化学习的方式来对 LLM 进行微调 (Fine

如何让 LLM “忘记” 学到的有害内容？

随着大型语言模型（LLM）的发展，从业者面临更多挑战。如何避免 LLM 产生有害回复？如何快速删除训练数据中的版权保护内容？如何减少 LLM 幻觉（hallucinations，即错误事实）? 如何在数据政策更改后快速迭代 LLM？这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下，对于 LLM 的安全可信部署至关重要。

目前业界的主流解决方案为 LLM 对齐 (alignment)，即通过建立对比数据（正样本和负样本）用强化学习的方式来对 LLM 进行微调 (Finetuning)，也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ，从而保证 LLM 输出符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集；(2) 计算资源的限制。

字节跳动提出让 LLM 进行遗忘学习的方法来进行对齐。本文研究如何在 LLM 上进行 “遗忘” 操作，即忘记有害行为或遗忘学习（Machine Unlearning），作者展示了遗忘学习在三种 LLM 对齐场景上取得的明显效果：(1) 删除有害输出；(2) 移除侵权保护内容；(3) 消除大语言 LLM 幻觉。

遗忘学习有三个优势：(1) 只需负样本（有害样本），负样本比 RLHF 所需的正样本（高质量的人工手写输出）的收集简单的多（比如红队测试或用户报告）；(2) 计算成本低；(3) 如果知道哪些训练样本导致 LLM 有害行为时，遗忘学习尤为有效。

作者证明，如果从业者只有较少的资源，因此优先考虑的是停止产生有害输出，而不是试图产生过于理想化的输出，遗忘学习尤为便利。尽管只有负样本，研究表明，和 RLHF 相比，只使用 2% 的计算时间下，遗忘学习仍可以获得更好的对齐性能。

论文地址：https://arxiv.org/abs/2310.10683

代码地址：https://github.com/kevinyaobytedance/llm_unlearn

使用场景

本方法可以在资源有限的情况下，最大程度发挥优势。当没预算请人员写优质样本，或计算资源不足时，应当优先停止 LLM 产生有害输出，而不是试图让其产生有益输出。

有害输出造成的损害远不是有益输出能弥补的。如果一个用户问 LLM100 个问题，他得到一个有害答案，就会失去信任，不管后来 LLM 能给多少有益答案。有害问题的预期输出可以是空格、特殊字符、无意义字符串等，总之，一定要是无害文本。

文中展示了 LLM 遗忘学习的三个成功案例：(1) 停止生成有害回复（图一）；这与 RLHF 情境相似，区别是本方法目标是生成无害回复，而不是有益回复。当只有负样本时，这是能期望的最好结果。(2) LLM 使用侵权数据训练后，在作者要求下，成功删除数据，且考虑到成本因素不能重训 LLM；(3) LLM 成功忘记 “幻觉”。

图一

方法

在微调 step t，LLM 更新如下：

第一项损失为梯度上升（graident descent），目的为忘记有害样本:

为有害提示 (prompt)，为对应的有害回复。整体损失反向提升了有害样本的损失，即让 LLM “遗忘” 有害样本。

第二项损失为随机误配，强制 LLM 在有害提示上预测无关回复。类似于分类里的标签平滑（label smoothing [2]）。目的是 LLM 更好的忘记有害提示上的有害输出。同时实验发现能增加 LLM 正常输出的性能。

第三项损失为在正常任务上维持性能：

同 RLHF 类似，在预训练 LLM 上计算 KL 散度能更好保持 LLM 性能。

此外，所有的梯度上升和下降都只在输出（y）部分做，而不是像 RLHF 在提示 - 输出对（x, y）上。

应用场景：忘却有害内容等

本文用 PKU-SafeRLHF 数据作为遗忘数据，TruthfulQA 作为正常数据，图二显示了遗忘学习后 LLM 在忘却的有害提示上输出的有害率。文中使用的方法为 GA（梯度上升和 GA+Mismatch：梯度上升 + 随机误配）。遗忘学习后的有害率接近于零。

图二

图三显示了未见过的有害提示（未被忘却过）上的输出。即使在没有忘却过的有害提示上，LLM 的有害率也接近于零，证明 LLM 忘记的不仅仅是具体见过的样本，而是泛化到了包含有害这个概念的内容。

图三

同时 LLM 在正常样本上的性能和忘却前保持类似。

表一展示了生成的样本。可以看到在有害提示下，LLM 生成的样本都是无意义字符串，即无害输出。

表一

该方法在其他场景（如忘却侵权内容和忘却幻觉）的应用原文中有详细描述。

RLHF 比较

表二显示了该方法和 RLHF 的比较，这里 RLHF 已经用了正例，而遗忘学习的方法只有负例，所以比较一开始本方法就占劣势。但即便如此，遗忘学习也能取得和 RLHF 相似的对齐性能。

表二

图四显示了计算时间的比较，本方法只需 RLHF 2% 的计算时间。

图四

尽管只有负样本，遗忘学习的方法仍能达到和 RLHF 相似的无害率，而且只使用 2% 的算力。因此如果目标是停止输出有害输出，遗忘学习比 RLHF 更高效。

结论

该研究首次探索了 LLM 上的遗忘学习。本文的结果表明，遗忘学习是一种有希望的对齐方法，特别是当从业者没有足够的资源时。论文展示了三种情境：遗忘学习可以成功删除有害回复、删除侵权内容和消除错觉。研究表明，尽管只有负样本，遗忘学习仍可在只用 RLHF 计算时间的 2% 的情况下，获得和 RLHF 相近的对齐效果。

参考文献

[1] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." Advances in Neural Information Processing Systems 35 (2022): 27730-27744.

[2] Müller, Rafael, Simon Kornblith, and Geoffrey E. Hinton. "When does label smoothing help?" Advances in neural information processing systems 32 (2019).

用RLHF 2%的算力让LLM停止有害输出，字节提出LLM遗忘学习

相关资讯

字节自研大模型，却因用ChatGPT被封号惹争议？官方回应了

刚刚，字节版GPTs「扣子」上线了

加速量子化学计算，字节&北大团队量子蒙特卡罗研究新进展登Nature子刊