在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如鉴于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评价中,由于任务的复杂性且通常没有标准答案,则通常直接以人类标注者或高性能大模型(LLM-as-a-Judge)的偏好标注作为评判标准。
尽管上述对偏好数据的应用已经取得了广泛的成效,但对偏好本身则缺乏充足的钻研,这很大水平上阻碍了对更可信 AI 系统的构建。为此,上海交通大学生成式人工智能实验室(GAIR)发布了一项新钻研成果,对人类用户与多达 32 种流行的大语言模型所展现出的偏好举行了系统性的全面解析,以了解差别来源的偏好数据是如何由各种预定义属性(如有害,幽默,承认局限性等)定量组成的。
举行的阐发有如下特点:
注重真实应用:钻研中采用的数据均来源于真实的用户 – 模型对话,更能反映实际应用中的偏好。
分场景建模:对属于差别场景下的数据(如日常交流,创意写作)独立举行建模阐发,避免了差别场景之间的互相影响,结论更清晰可靠。
统一框架:采用了一个统一的框架解析人类与大模型的偏好,并且具有良好的可扩展性。
该钻研发现:
人类用户对模型答复中搭档之处的迟钝度较低,对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的答复。而像 GPT-4-Turbo 这样的高级大模型则更偏好于那些没有搭档,表达清晰且安全有害的答复。
尺寸接近的大模型会展现出类似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。
鉴于偏好的评价可以被有意地操作。鼓励待测模型以评价者喜欢的属性举行答复可以提高得分,而注入最不受欢迎的属性则会降低得分。
图 1:人类,GPT-4-Turbo 与 LLaMA-2-70B-Chat 在 “日常交流” 场景下的偏好解析结果,数值越大代表越偏好该属性,而小于 50 则表示对该属性的厌恶。
本项目已经开源了丰富的内容与资源:
可交互式演示:包含了所有阐发的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以举行定量阐发。
数据集:包含了本钻研中所采集的用户 – 模型成对对话数据,包括来自真实用户以及多达 32 个大模型的偏好标签,以及针对所定义属性的详细标注。
代码:提供了采集数据所采用的自动标注框架及其使用说明,此外也包括了用于可视化阐发结果的代码。
论文:https://arxiv.org/abs/2402.11296
演示:https://huggingface.co/spaces/GAIR/Preference-Dissection-Visualization
代码:https://github.com/GAIR-NLP/Preference-Dissection
数据集:https://huggingface.co/datasets/GAIR/preference-dissection
方法介绍
该钻研采集了来自 ChatbotArena Conversations 数据集中大量来自真实应用中的成对用户 – 模型对话数据。每一个样本点由一个用户询问与两个差别的模型答复组成。钻研者们首先采集了人类用户与差别大模型在这些样本上的偏好标签,其中人类用户的标签已经包含在所选用的原始数据集内,而 32 个选用的开源或闭源的大模型的标签则由钻研者额外举行推理与采集。
该钻研首先构建了一套鉴于 GPT-4-Turbo 的自动标注框架,为所有的模型答复标注了它们在预先定义的 29 个属性上的得分,随后鉴于一对得分的对比结果可以得到样本点在每一个属性上的 “对比特征”,例如答复 A 的有害性得分高于答复 B,则该属性的对比特征为 + 1,反之则为 – 1,相同时为 0。
利用所构建的对比特征与采集到的二元偏好标签,钻研者们可以通过拟合贝叶斯线性回归模型的方式,以建模对比特征到偏好标签之间的映射关系,而拟合得到的模型中对应于每一个属性的模型权重即可被视作该属性对于总体偏好的贡献水平。
由于该钻研采集了多种差别来源的偏好标签,并举行了分场景的建模,因而在每一个场景下,对于每一个来源(人类或特定大模型),都能够得到一组偏好到属性的定量分解结果。
图 2:阐发框架的总体流程示意图
阐发结果
该钻研首先阐发对比了人类用户与以 GPT-4-Turbo 代表的高性能大模型在差别场景下最偏好与最不偏好的三个属性。可以看出,人类对搭档的迟钝水平显著低于 GPT-4-Turbo,且厌恶承认局限性而拒绝回答的情形。此外,人类也对迎合自己主观立场的答复表现出明显的偏好,而并不关心答复中是否纠正了询问中潜在的搭档。与之相反,GPT-4-Turbo 则更注重答复的正确性,有害性与表达的清晰水平,并且致力于对询问中的模糊之处举行澄清。
图 3:人类与 GPT-4-Turbo 在差别场景或询问满足的前提下最偏好与最不偏好的三个属性
图 4:人类与 GPT-4-Turbo 对于轻微 / 适中 / 严重水平的搭档的迟钝水平,值接近 50 代表不迟钝。
此外,该钻研还探索了差别大模型之间的偏好组分的类似水平。通过将大模型划分为差别组并分别计算组内类似度与组间类似度,可以发现当按照参数量(<14B 或 > 30B)举行划分时,组内类似度(0.83,0.88)明显高于组间类似度(0.74),而按照其他因素划分时则没有类似的现象,表明大模型的偏好很大水平上决定于其尺寸,而与训练方式无关。
图 5:差别大模型(包括人类)之间偏好的类似水平,按参数量排列。
另一方面,该钻研也发现经过对齐微调后的大模型表现出的偏好与仅经过预训练的版本几乎一致,而变化仅发生在表达偏好的强度上,即对齐后的模型输出两个答复对应候选词 A 与 B 的概率差值会显著增加。
图 6:大模型在对齐微调前后的偏好变化情况
最后,该钻研发现,通过将人类或大模型的偏好定量分解到差别的属性,可以对鉴于偏好的评价结果举行有意地操作。在目前流行的 AlpacaEval 2.0 与 MT-Bench 数据集上,通过非训练(设置系统信息)与训练(DPO)的方式注入评价者(人类或大模型)的偏好的属性均可显著提升分数,而注入不受偏好的属性则会降低得分。
图 7:对 MT-Bench 与 AlpacaEval 2.0 两个鉴于偏好评价的数据集举行有意操作的结果
总结
本钻研详细阐发了人类和大模型偏好的量化分解。钻研团队发现人类更倾向于直接回答问题的回应,对搭档不太迟钝;而高性能大模型则更重视正确性、清晰性和有害性。钻研还表明,模型大小是影响偏好组分的一个关键因素,而对其微调则影响不大。此外,该钻研展示了当前若干数据集在了解评价者的偏好组分后易被操作,表明了鉴于偏好评价的不足。钻研团队还公开了所有钻研资源,以支持未来的进一步钻研。