像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

除了分数，打出分数背后的理由对于大模型对齐更具价值。现有的大模型对齐方法包括鉴于示例的监督微调（SFT）和鉴于分数反应的强化进修（RLHF）。然而，分数只能反应当前复原的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从谈话反应中进修并调整自己的行为模式。就像审稿意见不仅仅是一个分数，还包括许多接受或者拒绝的理由。那么，大谈话模型能否也像人类一样使用谈话反应来改善自身呢？最近，香港中文大学和腾讯 AI Lab 的研究者们提出了一项名为比较式非似然训练（Contrastive Unlikelihood

除了分数，打出分数背后的理由对于大模型对齐更具价值。

现有的大模型对齐方法包括鉴于示例的监督微调（SFT）和鉴于分数反应的强化进修（RLHF）。然而，分数只能反应当前复原的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从谈话反应中进修并调整自己的行为模式。就像审稿意见不仅仅是一个分数，还包括许多接受或者拒绝的理由。

那么，大谈话模型能否也像人类一样使用谈话反应来改善自身呢？

最近，香港中文大学和腾讯 AI Lab 的研究者们提出了一项名为比较式非似然训练（Contrastive Unlikelihood Learning，CUT）的创新研究，使用谈话反应来对齐谈话模型，让模型像人类一样从不同的批评意见中进修成长。

CUT 简单有效。仅凭 1317 条谈话反应数据，CUT 就能使 LLaMA2-13b 在 AlpacaEval 上的 win rate 从 1.87% 飙升至 62.56%，击败 175B 的 DaVinci003。更令人兴奋的是，CUT 能像其他 RLHF 框架一样形成探索 -> 批评 -> 改进的反复迭代，其中批评可由自动的考语模型来完成，实现整个系统“自产自评自晋升”。

作者对 LLaMA2-chat-13b 进行了四轮迭代，将模型在 AlpacaEval 上的性能从 81.09% 逐步晋升至 91.36%。相较于鉴于分数反应的对齐技术（DPO），CUT 在同等数据规模下表现更佳。此研究揭示了谈话反应在对齐领域所具备的巨大发展潜力，为未来的对齐研究开辟了新的可能。

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

论文标题：Reasons to Reject? Aligning Language Models with Judgments

论文链接：https://arxiv.org/abs/2312.14591

Github 链接：https://github.com/wwxu21/CUT

大模型的对齐

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

根据现有工作，研究人员总结了两种常见的大模型对齐方式：

1. 从示例中进修 (Learning from Demonstration)：鉴于现成的指令 – 复原对，使用监督式训练的方法来对齐大模型。

优点：训练稳定；实现简单。

缺点：收集高质量、多样化的示例数据成本高；无法从错误复原中进修；示例数据往往和模型无关。

2. 从分数反应中进修 (Learning from Rewards)：给指令 – 复原对打分，使用强化进修训练模型最大化其复原的得分。

优点：能同时使用正确复原和错误复原；反应信号与模型相关。

缺点：反应信号稀疏；训练过程往往比较复杂。

此研究关注的则是从谈话反应中进修 (Learning from Judgments)：给指令 – 复原对写考语，鉴于该谈话反应改进模型存在的瑕疵，保持模型的优点，从而晋升模型性能。

可以看出，谈话反应继承了分数反应的优点。与分数反应相比，谈话反应的信息量更大：与其让模型去猜哪里做对了和哪里做错了，谈话反应可以直接指出详细的不足之处和改进方向。然而，令人遗憾的是，研究者们发现目前尚无有效方法能充分使用谈话反应。为此，研究者们提出了一种创新性的框架 CUT，旨在充分发挥谈话反应的优势。

比较式非似然训练

CUT 的核心思想是从比较中进修。研究者们通过比较大模型在不同条件下的复原去启发哪些部分是令人满意的，应该保持，哪些部分是有瑕疵，需要修改。鉴于此，研究者们使用最大似然估计（MLE）来训练令人满意的部分，使用非似然训练（UT）来修改复原中的瑕疵。

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

1. 对齐场景：如上图所示，研究者们考虑了两种对齐场景：

a) 像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍：这是通常理解的对齐场景，在该场景下，复原需要忠实地遵循指示并符合人类的期望和价值观。

b) 像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍：该场景引入了谈话反应作为额外的条件。在该场景下，复原要同时满足指令和谈话反应。例如，当收到一个消极反应，大模型需要根据对应的反应中提到的问题去犯错。

2. 对齐数据：如上图所示，鉴于上述两者对齐场景，研究者们构造了三类对齐数据：

a) Align-P：大模型生成了令人满意的复原，因此获得了积极的反应。显然，Align-P 在像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍和场景下都是满足对齐的。

b) Align-N：大模型生成了有瑕疵（蓝色加粗）的复原，因此获得了消极的反应。对于 Align-N，中是不满足对齐。但考虑该消极反应后，Align-N 在像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍场景下仍是对齐的。

c) Misalign：Align-N 中真实的消极反应被替换为一条伪造的积极反应。显然，Misalign 在和像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍场景下都不满足对齐。

3. 从比较中进修：

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

a) Align-N v.s. Misalign：两者的区别主要在于像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍下的对齐程度。鉴于大模型强大的上下文内进修能力（in-context learning），从 Align-N 到 Misalign 的对齐极性翻转通常伴随着特定词的生成概率的显著变化，尤其是那些与真实消极反应密切相关的词。如上图所示，在 Align-N（左通路）的条件下，大模型生成 “a” 的概率明显高于 Misalign（右通路）。而这概率显著变化的地方刚好是大模型犯错的地方。

为了从该比较中进修，研究者们将 Align-N 和 Misalign 数据同时输入给大模型，以获取输出词分别在两种条件下的生成概率像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍和。那些在条件下有着明显高于条件下的生成概率的词被标记为不合适的词。具体而言，研究者们采用如下标准来量化不合适词的界定：

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

其中像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍是权衡不合适词识别过程中精度和召回的超参数。

研究者们对这些识别出来的不合适词采用非似然训练（UT），从而迫使大模型去探索更加令人满意的复原。对于其他复原词，研究者们仍采用最大似然估计（MLE）来优化：

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

其中像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍是控制非似然训练的比重的超参数，是复原词数。

b) Align-P v.s. Align-N：两者的区别主要在于像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍下的对齐程度。本质上，大模型通过引入不同极性的谈话反应来控制输出复原的质量。因此该二者的比较能启发大模型去区分令人满意的复原和有瑕疵的复原。具体而言，研究者们通过以下最大似然估计（MLE）损失来从该组比较中进修：

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

其中像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍是指示函数，如果数据满足对齐返回 1，否则返回 0。

CUT 最终的训练目标结合了上述两组比较：像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍。

实行评估

1. 离线对齐

为了省钱，研究者们首先尝试了使用现成的谈话反应数据来对齐大模型。该实行用以证明 CUT 在使用谈话反应的能力。

a) 通用模型

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

如上表所示，在通用模型对齐上，研究者们使用 Shepherd 提供的 1317 条对齐数据，分别在冷启动（LLaMA2）和热启动（LLaMA2-chat）的条件下比较了 CUT 与现有从谈话反应进修的方法。

在鉴于 LLaMA2 的冷启动实行下，CUT 在 AlpacaEval 测试平台上大幅超越现有对齐方法，充分证明了其在使用谈话反应方面的优势。并且 CUT 在 TruthfulQA 上相比于基座模型也取得了大幅晋升，这揭示了 CUT 在缓解大模型幻觉（hallucination）问题上有巨大潜力。

在鉴于 LLaMA2-chat 的热启动场景中，现有方法在晋升 LLaMA2-chat 方面表现不佳，甚至产生了负面影响。然而，CUT 却能在此基础上进一步晋升基座模型的性能，再次验证了 CUT 在使用谈话反应方面的巨大潜力。

b) 专家模型

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

研究者们同时测试了在特定专家任务（文本摘要）上 CUT 的对齐效果。如上表所示，CUT 在专家任务上相比现有对齐方法也取得了明显的晋升。

2. 在线对齐

离线对齐的研究已经成功证明了 CUT 的强大对齐性能。现在，研究者们进一步地探索了更贴近实际应用的在线对齐场景。在这个场景中，研究者们迭代地对目标大模型的复原进行谈话反应标注，使该目标模型能够根据与其相关的谈话反应进行更精确的对齐。具体流程如下：

步骤 1：收集指令像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍，并获得目标大模型的复原。

步骤 2：针对上述指令 – 复原对，标注谈话反应像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍。

步骤 3：采用 CUT，鉴于收集到的三元组数据像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍微调目标大模型。

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

如上图所示，经过四轮在线对齐迭代后，CUT 在仅有 4000 条训练数据和较小的 13B 模型规模的条件下，仍然能够取得令人瞩目的 91.36 分数。这一成绩进一步展示了 CUT 卓越的性能和巨大的潜力。

3. AI 考语模型

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

考虑到谈话反应的标注成本，研究者尝试训练考语模型（Judgement Model）来自动地为目标大模型标注谈话反应。如上图所示，研究者们分别使用 5000 条（AI Judge-5000）和 3000 条（AI Judge-3000）谈话反应数据来训练了两个考语模型。这两个考语模型在优化目标大型模型方面都取得了显著成果，尤其是 AI Judge-5000 的效果更为突出。

这证明了使用 AI 考语模型对齐目标大模型的可行性，同时也突显了考语模型质量在整个对齐过程中的重要性。这组实行还为未来降低标注成本提供了有力支持。

4. 谈话反应 vs. 分数反应

为了深入挖掘谈话反应在大型模型对齐中的巨大潜力，研究者们将鉴于谈话反应的 CUT 与鉴于分数反应的方法（DPO）进行了比较。为了确保比较的公平性，研究者们选取了 4000 组相同的指令 – 复原对作为实行样本，让 CUT 和 DPO 分别从这些数据所对应的分数反应和谈话反应中进行进修。

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

如上表所示，在冷启动（LLaMA2）实行中，CUT 的表现明显优于 DPO。而在热启动（LLaMA2-chat）实行中，CUT 在 ARC、HellaSwag、MMLU 和 TruthfulQA 等任务上能取得与 DPO 相媲美的成绩，并在 AlpacaEval 任务上大幅度领先 DPO。这一实行证实了在大型模型对齐过程中，相较于分数反应，谈话反应具有更大的潜力和优势。

总结与挑战

该工作中，研究者们系统地探讨了谈话反应在大模型对齐中的现状并创新性地提出了一种鉴于谈话反应的对齐框架 CUT，揭示了谈话反应在大型模型对齐领域所具有的巨大潜力和优势。此外，谈话反应的研究还有着一些新的方向和挑战，例如：

1. 考语模型的质量：尽管研究人员已成功地证实了训练考语模型的可行性，但在观察模型输出时，他们仍然发现考语模型经常给出不够准确的评价。因此，晋升考语模型的质量对于未来大规模使用谈话反应进行对齐具有举足轻重的意义。

2. 新知识的引入：当谈话反应涉及到大模型所缺乏的知识时，大模型即使能准确地识别出错误的地方，但也没有明确的修改方向。因此在对齐的同时补足大模型缺乏的知识非常重要。

3. 多模态对齐：谈话模型的成功促进了多模态大模型的研究，如谈话、语音、图像和视频的结合。在这些多模态场景下，研究谈话反应以及对应模态的反应迎来了新的定义和挑战。

{{userData.name}}已认证

像人类一样在批评中进修成长，1317条考语让LLaMA2胜率飙升30倍

独家 | 月之暗面正在进行两亿美元融资，投前估值高达 15 亿美元

一句指令自动玩手机，网上冲浪神器Mobile-Agent来了

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩