无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

随着人工智能技术的发展，以 GPT-4 为代表的大语言模型依靠其强大的能力正在对社会产生深远的影响。与此同时，大模型本身的安全性问题也变得尤为重要。如何确保大语言模型可以和人类的价值、真实的意图相一致，防止模型被滥用、输出有害的信息，这是大模型安全治理的核心问题。之前的大多数对齐方法需要网络新数据重新训练模型，然而对训练数据质量要求高以及优化模型参数耗时耗力是对齐中的痛点。除此之外，待对齐的价值观可能是动态变化的，这进一步给大模型价值观对齐带来了挑战。有鉴于此，上海交通大学生成式人工智能实验室 GAIR 迅速采取行

有鉴于此，上海交通大学生成式人工智能实验室 GAIR 迅速采取行动，推出了一种全新的价值对齐方法：OPO （On-the-fly Preference Optimization，实时偏好优化）。OPO 无需训练即可实现实时动态对齐，而且因其即插即用的特性，适用于所有的开源与闭源大模型。研究者透过 OPO 实现了大模型对于执法与公德标准的对齐，展示了 OPO 的动态性以及优越性。

相比于之前工作中的对齐方法（i.e., SFT、PPO 和 DPO），OPO 方法有如下优势：

无需训练即可实现价值观对齐；

舍弃奖励模型，并对任意大模型均适用，包括开源与闭源大模型；

容易更新待对齐的价值观。考虑到价值观可能会随着时间发生变化（比如执法），OPO 能方便快捷地通过替换相应的原则完成价值观的更新，而其他对齐方法则需要网络数据重新训练模型。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

表 1：OPO 与 SFT、PPO、DPO 等对齐方法的对比。

目前，该项目开源了大量资源，包括：

OPO 代码（使用方法和尝试流程也已经在 GitHub 上给出）；

5 种类型的尝试数据集，包括人出的法考标题、《公德与法治》考试标题（只保留了公德相关的标题）和从 NormBank 数据的尝试集中随机采样的标题，以及利用大模型主动生成的执法标题和职业公德标题；

2 大类价值观原则，分别是执法原则和公德原则。执法原则包括截止到 2023 年 7 月中国现行有效的所有执法法规（约 95 万条）。公德原则：①从中学的《公德与法治》教材里网络的基础公德原则；②从网上网络多家不同公司 / 行业的职业公德原则；③从 NormBank 训练集数据中随机抽取得到的社会公德规则；

用于主动生成尝试数据的 prompt 以及评价生成的尝试数据质量的 prompt；

用 OpenAI embedding 模型提取的执法和公德原则文本对应的向量。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

论文：Align on the Fly: Adapting Chatbot Behavior to Established Norms

论文地址：https://arxiv.org/abs/2312.15907

项目地址：https://gair-nlp.github.io/OPO/

代码地址：https://github.com/GAIR-NLP/OPO

方法

OPO 框架包含 3 部分，原则构建模块、对齐模块和评价模块。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

图 1：OPO 框架。

原则构建模块：

网络原始的原则文档，清洗文本数据，统一原则的格式，分别得到一个执法原则语料库和公德原则语料库。具体而言，对于执法原则，研究者从国家执法法规数据库中网络宪法、行政法规、地方性法规等执法法规，从国家规章库中网络部门规章与地方政府规章。这 2 个数据库涵盖了中国现行有效的所有执法。对于公德原则，研究者从中学的《公德与法治》教材里网络剔除法治内容后的文本作为基础公德原则，从网上网络了 57 家不同公司 / 行业的职业公德原则。除了网络显式的公德原则外，研究者也尝试从人标注好的公德数据里提取公德原则。从 NormBank 的训练集里随机选了 1000 条数据，每一条数据均是一个结构化的社会公德场景，之后研究者利用 ChatGPT 从每条数据里提取一条社会公德原则。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

表 2：网络的公德原则与执法原则的分析。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

表 3：网络的执法原则、基础公德原则、职业公德原则和社会公德原则的示例。

对齐模块：

对齐模块基于检索增强生成（RAG），旨在通过提供相应的原则，引导大模型在遵守原则的前提下更好地回答用户的问题。研究者利用 OpenAI 的 text-embedding-ada-002 embedding 模型将每条原则都表征为稠密向量并存储在一个向量库里。给定一个提问，首先也将问询转换为一个稠密向量，然后利用 Faiss 作为检索器在向量库里检索和问询最相关的 k 条原则，接下来，大模型会通过设计的 prompt 利用检索回来的原则作为行为规范回答问询。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

图 2：利用检索信息回答问询的 prompt。

评价模块：

评价模块是一个通用可扩展的问题主动生成工具，能够轻松扩展评测范围、扩大评测数据数量，还能缓解尝试数据泄露的问题。大模型在预训练和有监督微调阶段通常会涉及大量的非公开文本，之前的一些研究表明这可能会造成尝试数据泄露的问题，进而影响大模型性能对比的公平性。此外，研究者观察到人出的法考标题只涵盖一小部分执法，很多执法尤其是地方性执法没有被覆盖到，而对于这部分执法又很难网络到相应的尝试标题。并且，职业公德作为公德的一个重要组成部分，目前没有对应的尝试基准。为了解决上述问题，研究者提出了一个评价模块，该模块利用 GPT-4 主动生成带有答案的单项选择题。评价模块共包含 3 步：

1. 主动出题：网络人出的单项选择题并从中随机抽取一道题作为 seed quesiton，同时从网络的原则库里随机选择原则，要求 GPT-4 参考 seed quesiton 并依据原则和出题要求生成一道合理的包含标题、备选项、选项分析和答案的单项选择题；

2. 主动检测标题质量：将第一步的原则和生成的标题输入到 GPT-4，对单项选择题的 4 个部分（标题、备选项、选项分析和答案）依次核验，筛掉任意一部分不符合要求的标题；

3. 人工检测标题质量：研究者发现利用 GPT-4 并不能去掉所有质量差的主动生成的标题。为了确保评价的可靠性，研究者邀请了 3 个人类标注者，对第二步保留的标题作进一步的筛选。如果 2 个及以上的标注者都认为某道题不合理，则去掉这道题。

实验和结果

为了验证 OPO 的有效性，研究者构建了三个由人类标注的尝试基准，以及两个由模型主动生成的尝试基准。这些基准涵盖了执法和公德两大类别，包括中文和英文基准。尝试基准中的每一条数据均为单项选择题。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

表4：尝试基准的分析。

在 H-Law 和 A-Law 尝试基准上，OPO 能显著提高大多数模型的准确率。尤其值得一提的是，OPO 能在 A-Law 尝试基准上为许多大型模型带来 10 个百分点的准确率提高。例如，经过 OPO 优化后，GPT-4 的准确度从 84.83% 提高至 94.65%。此外，国产大模型 Qwen-Chat-14B 和 XuanYuan-70B 在应用 OPO 后的表现不仅与 GPT-4 不相上下，而且略微优胜。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

表5：各个大模型在 H-Law 与 A-Law 上的原始准确率（Base）、应用 OPO 后的准确率（OPO）、将生成标题用到的原则替换 OPO 中检索得到的原则后的准确率（Oracle）。无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用表示 OPO 相比 Base 的绝对提高，而表示 Oracle 相比 Base 的绝对提高。

在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 等 3 个公德尝试基准上，能观察到类似的现象。OPO 能提高所有模型在 A-Professional-Morality 上的表现，提高大部分模型在 H-Basic-Morality 和 H-Social-Morality 上的分数。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

表6：各个大模型在 H-Basic-Morality、H-Social-Morality 和 A-Professional-Morality 上的原始准确率（Base）、应用 OPO 后的准确率（OPO）、将生成选择题用到的原则替换 OPO 中检索得到的原则后的准确率（Oracle）。无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用表示 OPO 相比 Base 的绝对提高，而表示 Oracle 相比 Base 的绝对提高。

同时，研究者还探索了不同检索长度对 OPO 方法的影响。检索回来的文本长度最大值分别设置成 200、500、1000、1500、2000，发现大部分模型在不同的尝试基准上均具有相似的趋势：随着检索长度的增加，模型的性能先上升后下降。可能得原因是，较短的文本提供了有益信息，而更长的检索内容引入了噪声。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

图 3：在 H-law 基准上，改变检索长度对 OPO 效果的影响。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

图 4：在 A-law 基准上，改变检索长度对 OPO 效果的影响。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

图 5：在 H-Basic-Morality 基准上，改变检索长度对 OPO 效果的影响。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

图 6：在 H-Social-Morality 基准上，改变检索长度对 OPO 效果的影响。

无需训练实现价值观实时动态对齐：上交开源价值观对齐方法OPO，闭源与开源大模型均适用

图 7：在 A-Professional-morality 基准上，改变检索长度对 OPO 效果的影响。

总结

总结来说，GAIR 研究组提出了一个无需训练实现价值观实时动态对齐的方法 OPO，能够作用于开源模型与闭源模型。同时，为了缓解尝试数据泄露的问题并扩大尝试数据的数量与覆盖范围，研究者介绍了一个可扩展的评价模块用于根据原则主动生成尝试问题。实验证明 OPO 能够显著提高不同大模型在 5 个尝试基准上的性能。此外，也公开了网络的所有执法原则与公德原则，以及 5 个尝试基准中所使用的所有数据。