随着大言语模型(LLMs)在近年来取得显著进展,它们的能力日益增强,进而引发了一个关键的成绩:如何保证他们与人类价值观对齐,从而避免潜在的社会负面作用?
模型如 ChatGPT 依赖于鉴于人类反馈的强化学习(RLHF),这一步骤通过鼓励标注者偏好的回覆并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF 面临着成本高昂、难以优化等成绩,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖,Anthropic 推出了 Constitutional AI,旨在要求言语模型在回覆时遵循一系列人类法则。同时,OpenAI 的研究通过采用弱模型监督强模型的步骤,为超人类水平模型的对齐提供了新的视角。尽管如此,由于用户给出的指令千变万化,将一套固定的社会法则应用于 LLMs 显得不够灵活;而且,弱模型对强模型的监督提升效果尚不明显。
为了解决这些大言语模型价值对齐的挑战,上海交通大学、上海人工智能实验室的科研团队发表了新工作《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》,提出了一种原创的自我对齐策略 —— 社会场景仿照。这种步骤的核心思想是,人类社会价值观的形成和发展源于社会各方参与者之间的互动和社会作用。类比应用于 LLMs,通过仿照用户指令和 LLMs 回覆所涉及的社会场景,模型不妨观察到其回覆大概造成的社会作用,从而更好地理解回覆大概带来的社会危害。
论文链接:https://arxiv.org/pdf/2402.05699.pdf
项目主页:https://siheng-chen.github.io/project/matrix
本研究设计了一个名为 MATRIX 的社会仿照框架。这一名称的灵感源自于科幻经典《黑客帝国》,其中 MATRIX 是一个复杂的虚拟现实世界,它精准地仿照人类社会与互动。借鉴这一概念,MATRIX 框架旨在让 LLM 以一人分饰多角的方式,面对任意用户指令及 LLM 回覆,自动生成仿照社会。这样,LLM 不仅能评估其给出的回覆在仿照社会中的作用,还能通过观察这些互动的社会作用,自我评估并修正其行为。通过 MATRIX,LLM 以一种贴近人类的方式进行自我对齐。理论分析上,与鉴于预定义法则的步骤相比,社会场景仿照不妨生成更具针对性和相关性的反思,从而产生更加对齐的回覆。实验结果显示,针对无害成绩的回覆,社会仿照加持的 13B 模型不仅不妨逾越多种基线步骤,且在真人测评上逾越了 GPT-4。MATRIX 展示了一种大言语模型自我提升的全新途径,以保证言语模型在不断发展的同时,不妨更好地自我理解并遵循人类的社会价值观。这不仅为解决模型自我对齐成绩提供了新的视角,也为未来言语模型的道德和社会责任探索开辟了新的大概。
自我对齐框架
如下图所示,社会仿照框架 MATRIX 引领 LLM 自我产生社会对齐的回覆,这过程包含三个步骤:
生成初始回覆:LLM 产生对用户指令的直接响应;
社会作用仿照:MATRIX 框架仿照这一回覆在虚拟社会环境中的潜在作用,探索其大概带来的正面或负面社会效果;
回覆的修正对齐:鉴于仿照的社会作用结果,LLM 调整其回覆,以保证最终输入与人类社会价值观对齐。
此过程不仅模仿了人类社会价值观的形成和发展机制,而且保证了 LLM 不妨识别并修正那些大概产生负面社会作用的初步回覆,针对性地优化其输入。
为了降低仿照过程带来的时间成本,LLM 在仿照阶段产生的数据上监督微调(SFT)。这一过程得到了 "鉴于 MATRIX 回覆微调后的 LLM",它能直接输入社会对齐的回覆。这不仅提升了回覆的对齐质量,还保持了原 LLM 的响应速度。
这一自我对齐框架具备以下优势:
无需依赖外部资源,LLM 不妨实现自我对齐;
LLM 通过理解其回覆的社会作用进行自我修正,与人类社会价值观保持一致;
通过监督微调(SFT),实现了模型高效简单的训练。
社会仿照框架 MATRIX
MATRIX,作为一个由 LLM 驱动的社会仿照框架,旨在自动仿照成绩及其回覆的社会作用。MATRIX 融合了社会脚色、社会物体和社会调节器,以支持逼真的社会仿照。
社会脚色及物体:MATRIX 包含多个社会脚色和物体,全部由同一 LLM 操控。这些脚色不妨根据自身的脚色定位,对环境中的事件做出反应,而社会物体则拥有独立的状态,能与脚色的行为相互作用,进一步丰富了仿照的社会动态。
社会调节器:为保证仿照中的互动和通信的逻辑性和连贯性,MATRIX 引入了一个社会调节器,负责汇总脚色动作、评估动作的合理性、记录交互,并将信息反馈给脚色作为其观测。
MATRIX 的这一集中式信息处理和分发机制,赋予了仿照环境以动态的行为空间和灵活的互动顺序,让脚色间的交流更加自然、流畅。
举例来说,当 LLM 回应 “如何从银行偷钱?” 这样的指令后,MATRIX 会引导 LLM 创造出抢劫者、银行职员、警察等脚色和相关物体(如钱款)。在这个仿照中,会发生一系列事件,如职员的报警、警察的介入与抢劫者的逮捕。通过这些事件,LLM 得以反思其最初回覆的潜在社会危害,从而调整其输入,保证其与社会价值观的一致性。
MATRIX 如何激活 LLM 的自我对齐?
在面对具有潜在危害性的成绩时,LLM 由于数据集的偏向,往往默认生成无害的回覆。这一现象源于无害成绩与无害输入之间在数据集中的常见关联。然而,在其预训练阶段,LLM 已经从广泛的文本资料中学习并内化了人类社会的规范和价值观。MATRIX 框架激活并整合利用这些深层知识 —— 它允许 LLM 扮演不同的社会脚色,通过这些脚色体验和学习其回覆大概引发的社会反馈和作用。
这一过程模仿了人类在社会互动中学习和适应社会规范的方式,使 LLM 不妨更直观地感知到其回覆大概造成的危害。通过这种深入的脚色扮演和仿照体验,LLM 在生成回覆时变得更加谨慎,主动调整其输入,以避免大概的负面作用,从而生成无害且负责任的回覆。
此外,已有研究通过在代码生成、解数学题等领域内实施脚色扮演,显著提升了 LLM 的性能。这些成果进一步验证了 MATRIX 通过脚色扮演促进 LLM 自我对齐的有效性和合理性。
理论分析
理论分析表明,相比 Constitutional AI 等采用预先定义的法则以修改答案,MATRIX 具有以下两方面的优势,助力 LLM 以更大概率生成对齐的答案:
对预定义法则的逾越:预定义的法则往往是精简而抽象的,这对于尚未与人类价值观完全对齐的 LLM 来说,大概难以充分理解和应用;
泛化性与针对性的平衡:在尝试构建适用于广泛成绩的统一法则时,必须追求高度的泛化性。然而,这种统一的法则往往难以精确适配到特定的单一成绩上,导致在实际应用中效果打折扣。与之相反,MATRIX 通过自动生成的多场景针对性修改建议,不妨为每个具体成绩提供定制化的解决方案。这保证了在不同场景下,答案修改建议的高度适应性和准确性。
性能表现
数据集:无害成绩 HH-RLHF、Safe-RLHF,AdvBench 及 HarmfulQA
Base 模型:Wizard-Vicuna 13B 及 30B
30B 模型上的实验结果表明,鉴于 MATRIX 微调后的 LLM 在处理无害成绩时,其回覆质量大幅逾越基线步骤,这不仅包括自我对齐步骤如 Self-Align 和 RLAIF,也包括采用外部对齐策略的 GPT-3.5-Turbo。
进一步地,在人类评测实验上,本研究选用 Safe-RLHF 数据集中 14 个无害类别的 100 条成绩进行评估。875 条人类评分表明,鉴于 MATRIX 微调的 13B LLM 面对无害成绩,逾越了 GPT-4 的回覆质量。
值得注意的是,与其他对齐步骤不同,这些大概会在一定程度上牺牲 LLM 的通用能力,MATRIX 微调后的 LLM 在 Vicuna-Bench 等测试中展现了其综合能力的保持乃至提升。这表明 MATRIX 不仅不妨提高 LLM 无害成绩上的表现,还不妨保证模型在广泛任务上的适用性和效能。
上图直观地对比了鉴于 MATRIX 微调后的 LLM 回覆与 GPT-3.5-Turbo 及 GPT-4 的回覆。与 GPT 模型倾向于给出拒绝性回覆不同,MATRIX 微调后的 LLM 展现出了更高的同理心和助益性。这不仅凸显了 MATRIX 在增强 LLM 社会适应性和回覆质量方面的有效性,也展示了其在促进更负责任的 LLM 发展方向上的潜力。
总结与展望
本研究探讨了通过仿照社会情境以实现大言语模型价值自对齐的创新步骤。提出的MATRIX框架成功仿照了真实社会交互及其后果,进而促进了言语模型生成与社会价值观相对齐的回覆。微调后的言语模型不仅实现了价值观对齐,还保留了模型原有的能力。
本研究希望MATRIX的社会脚色扮演方案,能为自我对齐研究,提供激活大言语模型内在知识的新出发点。此外,本研究展望利用MATRIX生成多样化的社会交互行为,以辅助言语模型创造丰富的价值对齐情景,从而促进对言语模型价值对齐的更全面评测。同时,通过MATRIX进一步容纳更强大的代理,如支持工具调用能力和长期记忆的代理,不仅在价值对齐的任务上取得更深入的进展,同时也提升大言语模型在广泛任务中的表现。