归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

大言语模型(Large Language Models, LLMs)在过去两年内迅速发展,涌现出一些现象级的模型和产品,如 GPT-4、Gemini、Claude 等,但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距,因此晋升开源 LLMs 及其他小模型的才能以减小其与闭源大模型的差距成为了该规模的研究热点。LLM 的强大才能,特别是闭源 LLM,使得科研人员和工业界的从业者在训练自己的模型时都会利用到这些大模型的输入和学问。这一过程本质上是学问蒸馏(Knowledge,

大言语模型(Large Language Models, LLMs)在过去两年内迅速发展,涌现出一些现象级的模型和产品,如 GPT-4、Gemini、Claude 等,但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距,因此晋升开源 LLMs 及其他小模型的才能以减小其与闭源大模型的差距成为了该规模的研究热点。

LLM 的强大才能,特别是闭源 LLM,使得科研人员和工业界的从业者在训练自己的模型时都会利用到这些大模型的输入和学问。这一过程本质上是学问蒸馏(Knowledge, Distillation, KD)的过程,即从老师模型(如 GPT-4)中蒸馏学问到较小的模型(如 Llama)中,显著晋升了小模型的才能。可以看出,大言语模型的学问蒸馏技巧无处不在,且对于研究人员来说是一种性价比高、有效的方法,有助于训练和晋升自己的模型。

那么,当前的工作如何利用闭源 LLM 进行学问蒸馏和猎取数据?如何有效地将这些学问训练到小模型中?小模型能够猎取老师模型的哪些强大技巧?在具有规模特点的工业界,LLM 的学问蒸馏如何发挥作用?这些问题值得深入思考和研究。

早在 2020 年,陶大程团队就发布了《Knowledge Distillation: A Survey》,详细介绍了学问蒸馏在深度学习中的应用,主要用于模型压缩和加速。随着大言语模型的出现,学问蒸馏的作用范围不断扩大,逐渐扩展到了用于晋升小模型的性能以及模型的自我晋升。

2024 年初,陶大程团队与香港大学和马里兰大学等合作,发表了最新综述《A Survey on Knowledge Distillation of Large Language Models》,归纳了 374 篇相关工作,探讨了如何从大言语模型中猎取学问,训练较小模型,以及学问蒸馏在模型压缩和自我训练中的作用。同时,该综述也涵盖了对大言语模型技巧的蒸馏以及笔直规模的蒸馏,帮助研究者全面了解如何训练和晋升自己的模型。

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

论文题目:A Survey on Knowledge Distillation of Large Language Models

论文链接:https://arxiv.org/abs/2402.13116

项目链接:https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs

综述架构

大言语模型学问蒸馏的整体框架归纳如下图所示:

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

首先,根据大言语模型学问蒸馏的流程,该综述将学问蒸馏分解为了两个步骤:

1. 学问猎取(Knowledge Elicitation):即如何从老师模型中猎取学问。其过程主要包括:

a) 首先构建指令来确定要从老师模型中蒸馏的技巧或笔直规模的才能。

b) 然后使用种子学问(如某个数据集)作为输入来驱动老师模型,生成对应的回应,从而将相应的学问引导出来。

c) 同时,学问的猎取包含一些具体技巧:标注、扩展、分解、抽取特点、反应、自身学问。

2. 蒸馏算法(Distillation Algorithms):即如何将猎取的学问注入到先生模型中。该部分具体算法包括:有监督微调、散度及相似度、强化学习(即来自 AI 反应的强化学习,RLAIF)、排序优化。

该综述的分类方法根据此过程,将相关工作从三个维度进行了归纳:学问蒸馏的算法、技巧蒸馏、以及笔直规模的蒸馏。后两者都基于学问蒸馏算法来进行蒸馏。该分类的细节以及对应的相关工作归纳如下图所示。

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

学问蒸馏算法

学问猎取 (Knowledge Elicitation)

根据从老师模型中猎取学问的办法,该综述将其技巧分为标注 (Labeling)、扩展 (Expansion)、数据分解 (Data Curation)、特点抽取 (Feature)、反应 (Feedback)、自生成的学问 (Self-Knowledge)。每个办法的示例如下图所示:

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

标注(Labeling):学问标注是指由老师 LLMs 根据指令或示例,对给定的输入作为种子学问,生成对应的输入。例如,种子学问为某一个数据集的输入,老师模型标注思维链输入。

扩展(Expansion):该技巧的一个关键特点是利用 LLMs 的上下文学习才能,根据提供的种子示例,来生成与示例相似的数据。其优点在于通过示例能生成更加多样化和广泛的数据集。但是随着生成数据的继续增大,可能会造成数据同质化问题。

数据分解(Data Curation):数据分解的一个显著特点是其从零开始分解数据。其利用大量且多样的元信息(如话题、知文档、原始数据等)来作为多样且巨量的种子学问,以从老师 LLMs 中猎取规模庞大而且质量高的数据集。

特点猎取(Feature):猎取特点学问的典型方法主要为将输入输入序列输入到老师 LLMs 中,然后抽取其内部表示。该办法主要适用于开源的 LLMs,常用于模型压缩。

反应(Feedback):反应学问通常为老师模型对先生的输入提供反应,如提供偏好、评估或纠正信息来指导先生生成更好输入。

自生成学问(Self-Knowledge):学问也可以从先生自身中猎取,称之为自生成学问。在这种情况下,同一个模型既充当老师又充当先生,通过蒸馏技巧以及改进自己先前生成的输入来迭代地改进自己。该办法非常适用于开源 LLMs。

归纳:目前,扩展方法仍然被广泛应用,数据分解办法因为能够生成大量高质量的数据而逐渐成为主流。反应方法能够提供有利于先生模型晋升对齐才能的学问。特点猎取和自生成学问的办法因为将开源大模型作为老师模型而变得流行起来。特点猎取办法有助于压缩开源模型,而自生成学问的办法能够持续地晋升大言语模型。重要的是,以上方法可以有效地组合,研究人员可以探索不同办法的组合来引导出更有效的学问。

蒸馏算法(Distilling Algorithms)

猎取学问之后,就需要将学问蒸馏到先生模型中。蒸馏的算法有:有监督微调、散度及相似度、强化学习,以及排序优化。示例如下图所示:

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

有监督微调:监督微调(SFT)通过最大化老师模型生成的序列的似然性来微调先生模型,让先生模型来模仿老师模型。这是目前 LLMs 学问蒸馏中最常用的一个技巧。

散度及相似度(Divergence and Similarity):该算法将老师模型内部的参数学问作为先生模型训练的监督信号,适用于开源老师模型。基于散度与相似度的方法分别对齐概率分布以及隐藏状态。

强化学习(Reinforcement Learning):该算法适用于利用老师的反应学问来训练先生模型,即 RLAIF 技巧。主要有两个方面:(1)使用老师生成的反应数据训练一个先生奖励模型,(2)通过训练好的奖励模型,以最大化预期奖励来优化先生模型。老师也可以直接作为奖励模型。

排序优化(Rank Optimization):排序优化也可以将偏好学问注入到先生模型中,其优点在于稳定且计算效率高,一些经典算法如 DPO,RRHF 等。

技巧蒸馏

众所周知,大言语模型具有许多出色的才能。通过学问蒸馏技巧,提供指令来控制老师生成包含对应技巧的学问并训练先生模型,从而使其猎取这些才能。这些才能主要包括遵循语境(如指令)、对齐、智能体、自然言语处理(NLP)任务和多模态等才能。

下表归纳了技巧蒸馏的经典的工作,同时归纳了各个工作涉及到的技巧、种子学问、老师模型、先生模型、学问猎取办法、蒸馏算法。

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

笔直规模蒸馏

除了在通用规模的大言语模型,现在有很多工作训练笔直规模的大言语模型,这有助于研究界以及工业界对大言语模型的应用与部署。而大言语模型(如 GPT-4)在笔直规模上虽然具备的规模学问是有限的,但是仍能够提供一些规模学问、才能或者增强已有的规模数据集。这里涉及到的规模主要有(1)法律,(2)医疗健康,(3)金融,(4)科学,以及一些其他规模。该部分的分类学以及相关工作如下图所示:

归纳374篇相关工作,陶大程团队联合港大、UMD发布LLM学问蒸馏最新综述

未来方向

该综述探讨了目前大言语模型学问蒸馏的问题以及潜在的未来研究方向,主要包括:

数据选择:如何自动选择数据以实现更好的蒸馏效果?

多老师蒸馏:探究将不同老师模型的学问蒸馏到一个先生模型中。

老师模型中更丰富的学问:可以探索老师模型中更丰富的学问,包括反应和特点学问,以及探索多种学问猎取方法的组合。

克服蒸馏过程中的灾难性遗忘:在学问蒸馏或迁移过程中有效地保留原始模型的才能仍然是一个具有挑战性的问题。

可信学问蒸馏:目前 KD 主要集中在蒸馏各种技巧,对于大模型可信度方面的关注相对较少。

弱到强的蒸馏(Weak-to-Strong Distillation)。OpenAI 提出了 “弱到强泛化” 概念,这需要探索创新的技巧策略,使较弱的模型能够有效地引导较强的模型的学习过程。

自我对齐(自蒸馏)。可以设计指令使得先生模型通过生成反应、批评和解释等内容使其自主地改进、对齐其生成内容。

结论

该综述对如何利用大言语模型的学问来晋升先生模型,如开源大言语模型,进行了全面且系统地归纳,同时包括了近期较流行的自蒸馏的技巧。该综述将学问蒸馏分为了两个步骤:学问猎取以及蒸馏算法,同时归纳了技巧蒸馏以及笔直规模蒸馏。最后,该综述探讨了蒸馏大言语模型的未来方向,希望推动大言语模型学问蒸馏的边界,得到更易猎取、高效、有效、可信的大言语模型。

给TA打赏
共{{data.count}}人
人已打赏
应用

第二波!2024年3月精选实用安排对象合集

2024-3-18 3:17:02

应用

一句指令就能冲咖啡、倒红酒、锤钉子,清华具身智能CoPa「动」手了

2024-3-18 11:15:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索