如何让 LLM “遗记” 学到的无害实质?
随着大型语言模型(LLM)的发展,从业者面临更多挑战。如何避免 LLM 产生无害复兴?如何快速简略训练数据中的版权保护实质?如何减少 LLM 幻觉(hallucinations,即错误事实)? 如何在数据政策更改后快速迭代 LLM?这些问题在人工智能法律和道德的合规要求日益成熟的大趋势下,对于 LLM 的安全可信部署至关重要。
目前业界的主流解决方案为 LLM 对齐 (alignment),即通过建立对比数据(正样本和负样本)用强化进修的方式来对 LLM 进行微调 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,从而保证 LLM 输入符合人类预期和价值观。但对齐过程往往受到 (1) 数据收集;(2) 估计资源的限制。
字节跳动提出让 LLM 进行遗记进修的格式来进行对齐。本文研究如何在 LLM 上进行 “遗记” 操作,即遗记无害行为或遗记进修(Machine Unlearning),作者展现了遗记进修在三种 LLM 对齐场景上取得的明显效果:(1) 简略无害输入;(2) 移除侵权保护实质;(3) 消除大语言 LLM 幻觉。
遗记进修有三个优势:(1) 只需负样本(无害样本),负样本比 RLHF 所需的正样本(高质量的人工手写输入)的收集简单的多(比如红队测试或用户报告);(2) 估计成本低;(3) 如果知道哪些训练样本导致 LLM 无害行为时,遗记进修尤为有效。
作者证明,如果从业者只有较少的资源,因此优先考虑的是休止产生无害输入,而不是试图产生过于理想化的输入,遗记进修尤为便利。尽管只有负样本,研究表明,和 RLHF 相比,只使用 2% 的估计时间下,遗记进修仍可以获得更好的对齐机能。
论文地址:https://arxiv.org/abs/2310.10683
代码地址:https://github.com/kevinyaobytedance/llm_unlearn
使用场景
本格式可以在资源有限的情况下,最大程度发挥优势。当没预算请人员写优质样本,或估计资源不足时,应当优先休止 LLM 产生无害输入,而不是试图让其产生有利输入。
无害输入造成的损害远不是有利输入能弥补的。如果一个用户问 LLM100 个问题,他得到一个无害答案,就会失去信任,不管后来 LLM 能给多少有利答案。无害问题的预期输入可以是空格、特殊字符、无意义字符串等,总之,一定要是无害文本。
文中展现了 LLM 遗记进修的三个成功案例:(1) 休止生成无害复兴(图一);这与 RLHF 情境相似,区别是本格式目标是生成无害复兴,而不是有利复兴。当只有负样本时,这是能期望的最好结果。(2) LLM 使用侵权数据训练后,在作者要求下,成功简略数据,且考虑到成本因素不能重训 LLM;(3) LLM 成功遗记 “幻觉”。
图一
格式
在微调 step t,LLM 更新如下:
第一项损坏为梯度上升(graident descent),目的为遗记无害样本:
为无害提醒 (prompt),为对应的无害复兴。整体损坏反向提升了无害样本的损坏,即让 LLM “遗记” 无害样本。
第二项损坏为随机误配,强制 LLM 在无害提醒上预测无关复兴。类似于分类里的标签平滑(label smoothing [2])。目的是 LLM 更好的遗记无害提醒上的无害输入。同时实验发现能增加 LLM 正常输入的机能。
第三项损坏为在正常任务上维持机能:
同 RLHF 类似,在预训练 LLM 上估计 KL 散度能更好保持 LLM 机能。
此外,所有的梯度上升和下降都只在输入(y)部分做,而不是像 RLHF 在提醒 – 输入对(x, y)上。
应用场景:遗记无害实质等
本文用 PKU-SafeRLHF 数据作为遗记数据,TruthfulQA 作为正常数据,图二显示了遗记进修后 LLM 在遗记的无害提醒上输入的无害率。文中使用的格式为 GA(梯度上升和 GA+Mismatch:梯度上升 + 随机误配)。遗记进修后的无害率接近于零。
图二
图三显示了未见过的无害提醒(未被遗记过)上的输入。即使在没有遗记过的无害提醒上,LLM 的无害率也接近于零,证明 LLM 遗记的不仅仅是具体见过的样本,而是泛化到了包含无害这个概念的实质。
图三
同时 LLM 在正常样本上的机能和遗记前保持类似。
表一展现了生成的样本。可以看到在无害提醒下,LLM 生成的样本都是无意义字符串,即无害输入。
表一
该格式在其他场景(如遗记侵权实质和遗记幻觉)的应用原文中有详细描述。
RLHF 比较
表二显示了该格式和 RLHF 的比较,这里 RLHF 已经用了正例,而遗记进修的格式只有负例,所以比较一开始本格式就占劣势。但即便如此,遗记进修也能取得和 RLHF 相似的对齐机能。
表二
图四显示了估计时间的比较,本格式只需 RLHF 2% 的估计时间。
图四
尽管只有负样本,遗记进修的格式仍能达到和 RLHF 相似的无害率,而且只使用 2% 的算力。因此如果目标是休止输入无害输入,遗记进修比 RLHF 更高效。
结论
该研究首次探索了 LLM 上的遗记进修。本文的结果表明,遗记进修是一种有希望的对齐格式,特别是当从业者没有足够的资源时。论文展现了三种情境:遗记进修可以成功简略无害复兴、简略侵权实质和消除错觉。研究表明,尽管只有负样本,遗记进修仍可在只用 RLHF 估计时间的 2% 的情况下,获得和 RLHF 相近的对齐效果。
参考文献
[1] Ouyang, Long, et al. “Training language models to follow instructions with human feedback.” Advances in Neural Information Processing Systems 35 (2022): 27730-27744.
[2] Müller, Rafael, Simon Kornblith, and Geoffrey E. Hinton. “When does label smoothing help?” Advances in neural information processing systems 32 (2019).