AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级试验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本论文作者赵伟翔是哈尔滨工业大学社会计算与信息检索研究中心 2021 级直博生,导师为赵妍妍教授和秦兵教授,主要研究方向为对话系统、大语言模型对齐等。他曾以第一作者在 ACL、AAAI、IJCAI、COLING 等会议上发表论文。
个人主页: https://circle-hit.github.io/
在大模型实际部署落地的过程中,如何赋予大模型断续进修的能力是一个至关重要的挑战。这使其不妨动态适应新的使命并不断获得新的学问。大模型的断续进修主要面临两个重大挑战,分别是灾难性忘记和学问转嫁。灾难性忘记是指模型在进修新使命时,会忘记其已掌握的旧使命。学问转嫁则涉及到如何在进修新使命时有效地应用旧使命的学问来提升新使命进修的效果。
为了有效应对以上难题,哈工大联合度小满推出针对大模型的同享注意力断续进修框架 SAPT,相应论文已被自然语言处理顶级会议 ACL 2024 接收。
论文:SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models
论文地址:https://arxiv.org/abs/2401.08295
研究动机
现有面向大模型的断续进修的工作大都鉴于参数高效微调 (Parameter-Efficient Tuning, PET) 而开展,并且可以被抽象为由进修模块和抉择模块组成的工作框架。如图 1 中虚线所示,当新使命对话生成到达时,进修模块会为其分配一个单独的 PET 块来进修使命特定的学问,然后将其保存在 PET 资源池中,以供后续在尝试样本到来时(使命序号在尝试阶段无法获得),抉择模块不妨自动地为其抉择所属的 PET 块,得到尝试输出的结果。然而,当前工作中每一个模块的设计在有效应对灾难性忘记和学问转嫁挑战方面都表现出一定的局限性。
一方面,进修模块的设计旨在促进分歧使命之间的学问转嫁。不幸的是,进修模块分配的 PET 只进修当前使命特定学问的现状阻断了存储在已习得的 PET 块中的来自先前使命学问的潜在转嫁,并阻碍它们协助当前新使命学问的获得。
另一方面,抉择模块在缓解灾难性忘记方面发挥着关键作用,因为只有当它不妨自动抉择当前输出所属的 PET 块时,大模型基座才能成功完成当前使命。然而,当前工作中鉴于拼接或相加来自所有使命的 PET 块的设计无法有效缓解灾难性忘记。
更重要的是,他们忽略了将这两个模块进行对齐来同时解决灾难性忘记和学问转嫁。直觉上来看(如图 1 中的实线所示),为了促进新使命进修时的学问转嫁,进修模块应该依靠使命相关性来利用先前 PET 块中最相关的学问。而后抉择模块可以自然地重复这一注意力过程,通过寻找属于每一个尝试输出的相应 PET 块的拉拢来抵抗灾难性忘记。在本工作中,这种注意力过程被称为同享注意力。由此,这两个模块的端到端对齐不妨通过这种同享注意力而建立。
问题定义和设定
断续进修旨在解决进修连续而来的使命序列中的挑战。形式上,使命序列中每一个使命依次而来。每一个使命包含一个单独的目标数据集,其大小为。在任意时间步 t,模型不仅需要掌握第 t 个使命,而且还要保持其在之前所有使命上的性能不发生明显衰减。
在本工作中,我们深入研究更具挑战性和实用性的断续进修设定,即分歧使命的使命序号不可获得:在尝试阶段,模型面对输出样本时不知道它们属于哪个特定使命。
图 1 当前鉴于进修模块和抉择模块进行大模型断续进修的概念化框架。其中,虚线表示现有工作的流程,实现表示本工作提出方法的工作流程。
方法介绍
本文提出了针对大语言模型的同享注意力断续进修框架 SAPT,为同时应对灾难性忘记和学问转嫁的挑战提供了有效的解决方案。SAPT 的整体架构由两个关键组件组成,如图 2 所示:同享注意力进修与抉择模块(SALS)和注意力反思模块(ARM)。在 SALS 中,注意力进修(实线)和注意力抉择(虚线)通过同享注意力操作对齐。然后在 ARM 中,我们通过生成的伪样本帮助 SALS 回忆来自以前使命输出对应的正确的注意力权重。
图 2 我们提出的 SAPT 的整体架构,有同享注意力进修与抉择模块(左)和注意力反思模块构成(右)。
同享注意力进修与抉择模块(SALS):
注意力进修:为了获得来自先前使命的相关学问,当第 t 个使命到达时,通过 Query Projection 层生成查询向量和可进修的键值进行注意力运算,将所有之前的 PET 块的参数和当前通过加权拉拢进行聚合,用于第 t 个使命的进修。
注意力抉择:该部分通过重复注意力进修时的相同的注意力过程,得到现有 PET 块在每一个输出样本上的最佳拉拢,并结合到 LLM 上,完成对当前样本的尝试。
注意力反思模块(ARM):
然而,随着依次而来的新使命不断更新 SALS 会导致该模块仅针对最新使命进行最佳注意力拉拢,从而导致忘记以前使命相应的注意力拉拢系数。由此,ARM 模块确保来自先前使命的输出仍然可以正确地执行相应的同享注意力操作,以识别每一个使命特定的 PET 块的拉拢。具体方法鉴于生成式回放得到伪样本,用来对 Query Projection 层进行约束。
试验结果
我们鉴于 Prompt Tuning 和 LoRA 这两个具有代表性的参数高效微调方法,在 SuperNI Benchmark,Long Sequence Benchmark 两个评测基准上进行了试验,评价指标为:平均性能(AP)、忘记率(F.Ra)、前向转嫁 (FWT) 以及反向转嫁 (BWT)。如表 1 中结果所示,SAPT 具有最高的 AP 和最低的 F.Ra,表明其不妨有效应对灾难性忘记。与此同时,其在 FWT 和 BWT 上也具有最优的表现,体现出 SAPT 不妨实现有效的学问转嫁。
表 1 鉴于 T5-Large 模型在两个断续进修基准的总体结果
图 3 展示了在训练(左图)和尝试(右图)期间同享注意力的分布示意图。我们可以观察到:(1)PET 块的进修和抉择过程是完全对齐的,两个热力图几乎具有相同的布局。(2)学问转嫁确实发生在注意力进修过程中,以帮助 SAPT 获得新学问。这些进一步验证了 SAPT 处理灾难性忘记和学问转嫁的有效性。
图 3 同享注意力的可视化结果。
我们将试验采用的基础大模型拓展到了分歧的规模,我们试验分析了 T5 模型大小如何影响 SAPT 的性能。图 4 显示了随着逐渐增大的基础模型大小,即 Large(770M)、XL(3B)和 XXL(11B),SAPT、O-LoRA 和 Replay 在 AP、F.Ra 和 FWT 方面的表现。总体而言,随着基础模型大小的增加,在抵抗灾难性忘记和促进学问转嫁方面,SAPT 始终不妨展现出比基线方法更优越的性能。
图 4 SAPT 鉴于分歧规模的 T5 模块的试验结果
我们也将基础大模型拓展到了分歧的架构。图 5 展示了鉴于分歧大小的 T5 和 LLaMA-2 在 SuperNI 基准上的 SAPT 和基线方法的结果。可以观察到,SAPT 依旧不妨有效地缓解灾难性忘记并促进分歧模型架构间的学问转嫁。此外,平均性能随着模型基础能力的增强而提高(LLaMA-2 > T5),这进一步证明了我们提出的 SAPT 的通用性。
图 5 SAPT 鉴于分歧架构的大模型的试验结果。
更多详细内容可以参考论文原文。论文提出的方法未来将结合到度小满轩辕大模型中,欢迎大家访问!
大模型项目地址:https://github.com/Duxiaoman-DI/XuanYuan