推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

随着大语⾔模型(LLMs)在各类任务中展现出令人瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。 传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。 为了突破这⼀瓶颈,上海人工智能实验室、香港中文大学等联合提出了推理时偏好优化(TPO)方法,通过在推理阶段与奖励模型交互,借助可解释的文本反馈,迭代优化模型输出,实现了即时的模型对⻬,⽽⽆需重新训练。

随着大语⾔模型(LLMs)在各类任务中展现出令人瞩目的能力,如何确保它们⽣成的回复既符合预期又安全,始终是⼀项关键挑战。

传统的偏好对⻬⽅法,如基于⼈类反馈的强化学习(RLHF)和直接偏好优化(DPO),依赖于训练过程中的模型参数更新,但在⾯对不断变化的数据和需求时,缺乏⾜够的灵活性来适应这些变化。

为了突破这⼀瓶颈,上海人工智能实验室、香港中文大学等联合提出了推理时偏好优化(TPO)方法,通过在推理阶段与奖励模型交互,借助可解释的文本反馈,迭代优化模型输出,实现了即时的模型对⻬,⽽⽆需重新训练。

实验结果表明,TPO能够有效提升未对⻬模型的表现,甚⾄超越经过训练的对⻬模型,为模型偏好对⻬提供了⼀种全新的思路。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

△训练时偏好优化VS推理时偏好优化

TPO特点

(1)推理时对⻬、⽆需训练:TPO通过与奖励模型的推理阶段交互,实现即时对⻬偏好,无需更新模型参数。

(2)基于⽂本反馈:TPO使⽤可解释的文本反馈(而非纯数值梯度)来指导优化,让模型“理解ˮ并“执行”文本评价。

(3)优于传统⽅法:在推理阶段,未对⻬的模型(例如Llama-3.1-70B-SFT)经过数次TPO迭代,能够持续逼近奖励模型的偏好。在多个基准测试中,其表现甚至超越了已在训练时对⻬的版本(例如Llama-3.1-70B-Instruct)。

(4)灵活适应性:TPO能够灵活应对不断变化的数据和需求,具有较强的适应性,并且能够在资源有限的环境下⾼效运⾏。

研究方法

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

为实现这⼀⽬标,已有多种方法用来实现评分函数,如RLHF和DPO通过训练时偏好优化来对⻬⼈类偏好。这些⽅法通过基于梯度的⽅法(如随机梯度下降,SGD)优化模型参数(如神经⽹络中的权重θ),使得⽣成符合⼈类偏好的输出概率更⼤。每次更新的步骤如下:

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

TPO通过解释和执行文本损失文本梯度,为模型生成的回复提供可解释的优化信号。

如图所示,TPO包含四个关键组件,类似于标准的梯度优化⽅法:变量定义、损失计算、梯度计算和变量优化。

研究人员使用奖励模型R作为人类偏好的代理,提供生成回复质量的反馈。在推理时对⻬过程中,系统通过迭代调整输出,使其逐步更符合奖励模型的偏好。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

△测试时间偏好优化(TPO)框架(AlpacaEval2的真实示例)

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

该过程最多进行D次迭代,类似于训练过程,称为推理时训练(test-time training)。最终,选择缓存中评分最高的回复作为最终输出。

实验与结果

策略模型

  • 未对齐模型:Llama-3.1-70B-SFT
  • 已对齐模型:-Llama-3.1-70B-Instruct-Llama-3.1-70B-DPO(UltraFeedback训练得来)

奖励模型

  • FsfairX-LLaMA3-RM-v0.1
  • Llama-3.1-Tulu-3-8B-RM

benchmark与评价指标

  • 指令跟随:Alpaca Eval 2(原始胜率WR和长度控制胜率LC)和ArenaHard(胜率WR)
  • 偏好对齐:HH-RLHF(采样500条,FsfairX-LLaMA3-RM-v0.1的平均奖励分数)
  • 安全:BeaverTails-Evaluation(FsfairX-LLaMA3-RM-v0.1的平均奖励分数)XSTest(WildGuard的准确率)
  • 数学能力:MATH-500(使用0-shot配置和CoT提示,pass@1准确率)

推理时训练效果

TPO在推理时对模型进行优化,通过少量的迭代步数逐渐拟合奖励模型偏好,显著提升未对齐模型的性能,使其达到与对齐模型相当的水平;在已对齐模型上,TPO进一步增强了对齐效果,而Revision版本(迭代优化选定回复而不参考被拒绝回复)的提升有限。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

benchmark性能

TPO能够显著提升模型性能指标,未对齐模型通过TPO超越了训练时对齐的模型,而对齐模型在经过TPO迭代后也获得了进一步的优化。D和N分别表示最大迭代次数和样本数量。

* 表示使用奖励模型FsfairX-LLaMA3-RM-v0.1优化的模型,而†表示Llama-3.1-Tulu-3-8B-RM。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

推理稳定性

TPO能够有效地根据奖励模型的反馈调整模型输出,显著改善推理稳定性,表现为采样样本的奖励分数标准差的降低。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

TPO的特性分析

TPO的宽度:增加TPO的搜索宽度(即每次TPO迭代中采样的回复数量)能够显著提升性能,直到达到饱和。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

TPO的深度:增加TPO的搜索深度比单纯增加样本数量更有效地发现更高质量的回复。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

TPO的计算成本:TPO无需更改模型参数,与训练时偏好优化相比,在计算成本上具有显著优势。TPO的计算成本(FLOPs)仅为一轮DPO训练(64,000条数据)所需开销的0.01%。而Instruct模型通常在百万级语料上多轮迭代,训练成本远高于DPO,进一步凸显了TPO在相对计算成本方面的优势。

TPO的指令跟随前提:TPO的成功依赖于策略模型具备基础的指令跟随能力,因为模型必须准确解释和响应数值形式的奖励模型偏好。

推理时也能做偏好优化,无需额外重训练,来自上海AI Lab港中文等

总结

提出推理时偏好优化(TPO)方法,通过在推理过程中与奖励模型交互,将奖励模型信号转化为”文本损失”和”文本梯度”,以此迭代优化模型输出。

无需重新训练,即可让大语言模型与人类偏好对齐。TPO为训练时偏好优化提供了轻量、高效且可解释的替代方案,充分利用了大语言模型在推理时的固有能力。

推理时优化的灵活性:TPO通过即时文本反馈实现推理时对⻬,增强了模型在多样化场景中的适应能力,能快速响应变化的需求和任务的变化。此外,TPO充分利用大语言模型在推理、指令跟随等方面的内在优势,从⽽实现了更灵活的偏好对⻬。

未来研究⽅向:未来的研究可聚焦于优化文本交互⽅法,使其能够适应更多专门任务,探索更鲁棒的奖励模型以提升偏好捕捉能⼒,并研究如何提升较弱模型在TPO中的表现,从而进一步拓展其应用场景和优化效果。

论⽂链接:https://arxiv.org/abs/2501.12895Github链接:https://github.com/yafuly/TPOHuggingface链接:https://huggingface.co/papers/2501.12895

相关资讯

东京大学 | Adobe 提出InstructMove,可通过观察视频中的动作来实现基于指令的图像编辑

InstructMove是一种基于指令的图像编辑模型,使用多模态 LLM 生成的指令对视频中的帧对进行训练。 该模型擅长非刚性编辑,例如调整主体姿势、表情和改变视点,同时保持内容一致性。 此外,该方法通过集成蒙版、人体姿势和其他控制机制来支持精确的局部编辑。

阿里发布新ID保持项目EcomID, 可从单个ID参考图像生成定制的保ID图像,ComfyUI可使用

阿里妈妈发布了一个新的ID保持项目EcomID,旨在从单个ID参考图像生成定制的保ID图像,优势在于很强的语义一致性,同时受人脸关键点控制。 EcomID 方法结合了 PuLID 和 InstantID 的优点,以获得更好的背景一致性、面部关键点控制、更真实的面部以及更高的相似度。 目前,EcomID 的 Comfyui 原生实现官方插件也已经发布,大家可以从文章中的链接获取。

o1推理框架最新成果:斯坦福&伯克利提出元链式思维,升级模型推理能力

o1背后的推理原理,斯坦福和伯克利帮我们总结好了! 在最新的一篇长达100页的论文中,他们将o1模型背后的推理机制提炼成了一个通用的框架——元链式思维(Meta-CoT)。 这个元链式思维(Meta-CoT)到底是什么意思呢?