本综述深入探讨了庞大谈话模型的资本高效化问题。
近年来,庞大谈话模型(LLM)如 OpenAI 的 GPT-3 在人工智能范围取得了显著进展。这些模型,具有庞大的参数量(例如 1750 亿个参数),在复杂度和能力上实现了飞跃。随着 LLM 的发展趋势朝着不断增大的模型规模前进,这些模型在从智能聊天机器人到复杂数据分析,乃至于多范围研究中的应用越发广泛。然而,模型规模的指数级增长带来了巨大的资本需求,尤其是在盘算、动力和内存等方面。
这些资本的巨大需求使得训练或布置这样庞大的模型本钱高昂,尤其是在资本受限的环境(如学术实验室或医疗范围)中更是如此。此外,由于训练这些模型需要大量的 GPU 使用,因此它们的环境影响也成为日益关注的问题,尤其是在电力消耗和碳排放方面。如何在资本有限的环境中有效布置和应用这些模型成为了一个紧迫的问题。
来自 Emory University,University of Virginia 和 Penn State University 的研究团队通过全面梳理和分析了当前 LLM 范围的最新研究,零碎地总结了提高模型资本效劳的多种技巧,并对未来的研究方向进行了深入探讨。这些工作不仅涵盖了 LLM 的全生命周期(预训练、微调、提示等),还包括了多种资本优化格式的分类和比较,以及对评价目标和数据集的标准化。本综述旨在为学者和实践者提供一个清晰的指导框架,帮助他们在资本有限的环境中有效地开发和布置庞大谈话模型。
论文链接:https://arxiv.org/pdf/2401.00625
一、引言
资本高效的 LLM 需要理解 LLM 生命周期中涉及的枢纽资本。在这项综述中,作者将这些资本零碎地归类为五个主要类别:盘算、内存、动力、资金和通信本钱。高效性在这里被定义为投入资本与产出的比例,一个更高效的零碎能够在消耗更少资本的同时产生相同水平的输出。因此,一个资本高效的 LLM 旨在在所有这些维度上最大化性能和能力,同时最小化资本开销,从而实现更可持续和更易获取的 AI 解决方案。
资本效劳在 LLM 中是一个至关重要且复杂的范围,它需要创新的解决方案来应对显著的挑拨。这些挑拨一共包括五个层面:
模型层面:自回归生成的低并行性导致了显著的延迟问题,这在庞大模型或长输入长度下尤其突出,影响训练和推理的高效处理。此外,自注意力层的二次复杂性随着输入长度的增加而显著增加,成为盘算瓶颈。
理论层面:缩放法则和收益递减指出,随着模型变大,每增加一个参数所带来的性能提升在减小。此外,理论上关于机器学习中的泛化和过拟合也对 LLM 的资本效劳提出了挑拨。
零碎层面:考虑到 LLM 的庞大模型大小和训练数据集,将它们全部放入单个 GPU/TPU 的内存中变得不可行。因此,为 LLM 优化训练过程的复杂零碎设计变得至关重要。
伦理层面:许多 LLM 依赖于庞大且专有的训练数据集,这限制了提高效劳的某些技巧的应用。此外,许多先进的 LLM 是封闭源的,这意味着在缺乏对模型内部工作的深入了解的情况下提高效劳变得更加复杂。
评价目标层面:LLM 的多样化和复杂性使得开发全面的资本效劳评价目标面临独特挑拨。与优化较小模型的一两种资本相比,LLM 呈现出多目标问题,要求在多个枢纽资本上同时进行优化。
为了应对上述挑拨,该综述提供了以下贡献:
资本高效 LLM 技巧的全面概述:对增强 LLM 资本效劳的技巧进行了全面的概述,涵盖了 LLM 整个生命周期的各种格式和计谋。
技巧按资本类型的零碎分类和分类法:建立了一个零碎的分类和分类法,根据它们优化的资本类型对资本高效的 LLM 技巧进行组织。
评价目标和数据集的标准化:提出了一套专门用于评价 LLM 资本效劳的评价目标和数据集的标准化。
识别差距和未来研究方向:对当前在创造资本高效 LLM 方面的瓶颈和未解决的挑拨进行了深入探讨,并指出了未来研究的潜在途径。
二、资本高效庞大谈话模型的全新分类法
该综述提出了一个全面的分类法,以零碎地理解和优化庞大谈话模型(LLM)中涉及的枢纽资本。这个分类法包括五个枢纽范围:盘算、内存、动力、资金和网络通信,每个范围都针对资本利用的不同方面:
1. 资本分类
盘算:涉及训练、微调和执行 LLM 所需的处理能力。盘算效劳的评价包括考虑操作数量(如浮点操作)、算法效劳和处理单元(如 GPU 或 TPU)的利用。
内存:内存效劳涉及所需的 RAM 和存储量。尤其是拥有数十亿参数的 LLM,需要大量内存来存储模型权重和处理庞大数据集。
动力:指模型生命周期中消耗的电力。考虑到环境影响和运营本钱,动力效劳至关重要。这包括增加能耗的计谋,如优化硬件利用、使用节能硬件等。
资金:财务资本是一个枢纽考虑因素,尤其对于小型组织和研究者。这包括硬件采购本钱、运行模型的电费和潜在的云盘算费用。
网络通信:在分布式训练和基于云的布置中,网络带宽和延迟变得重要。高效的网络通信意味着增加在分布式零碎节点之间或云端与用户之间传输的数据量,这对训练时间和实时应用的响应性有重大影响。
2. 技巧分类
此外,该综述还引入了一个结构化的分类法,将提升 LLM 资本效劳的技巧分为明确、定义清晰的层级。其中包括五个主要类别:架构设计、预训练、微调、推理和零碎设计。每个类别都在高效 LLM 开发和布置的生命周期中扮演着不可或缺的角色。
架构设计:检查 LLM 的结构基础,分为基于 Transformer 和非 Transformer 架构。
预训练:审视 LLM 开发的初步阶段,包括内存效劳和数据效劳。
微调:针对预训练模型的优化,分为参数高效微调和全参数微调。
推理:在操作阶段,采用各种计谋,如模型压缩和动态加速。
零碎设计:关注零碎层面的考虑,包括布置优化和支持基础设施等。
这个分类法旨在提供对多样化格式和计谋的结构化和细致理解。这些格式和计谋用于提升 LLM 的效劳和加速,为当前研究范围提供了一个全面的视角。
三、格式论
1. 庞大谈话模型架构设计的新进展
该综述重点探讨了庞大谈话模型(LLM)的两大架构设计方向:高效的 Transformer 结构和非 Transformer 架构。
高效的 Transformer 结构:这一类别包括了通过创新技巧优化 Transformer 模型的架构,旨在降低盘算和内存需求。例如,Reformer 通过局部敏感哈希技巧来改进注意力机制,而 Linear Transformer 则利用线性映射来增加盘算复杂度。AFT 和 KDEFormer 等其他格式则通过不同方式实现时间和内存效劳的大幅提升。
非 Transformer 架构:这一类别探索了替代 Transformer 的新型架构。例如,模块化网络(MoE)技巧通过结合多个专业化模型来处理复杂任务,Switch Transformer 和 GLaM 等则利用稀疏路由技巧在增加模型参数的同时保持效劳。另外,像 RWKV 这样的架构则结合了 Transformer 的训练效劳和 RNN 的推理效劳。
这些创新方向不仅优化了 LLM 的资本效劳,也推动了谈话模型技巧的整体发展。
2. 庞大谈话模型预训练:效劳与创新
该综述探索了 GPT-4 等庞大谈话模型(LLM)的高效预训练计谋,这些计谋不仅注重速度,还着眼于盘算资本的最优利用和创新的数据管理。
内存效劳
分布式训练:将模型训练任务分配给多个节点,以加速训练过程。数据并行(DP)和模型并行(MP)是两种主要的计谋。DP 通过将初始数据集分割并由多个加速器并行训练,而 MP 则将模型的层或张量分布到多个加速器上。
混合精度训练:这种技巧通过同时使用 16 位和 32 位浮点类型来加速深度学习模型的训练,特别适用于庞大谈话模型的训练。
数据效劳
重要性采样:这种格式通过优先处理信息丰富的训练实例来提高模型的数据效劳。
数据增强:通过创建现有数据的修改副本,使当前数据得到充分利用。
训练目标:预训练目标的选择是决定数据效劳的另一个因素。这通常涉及模型架构、输入 / 目标构建和遮蔽计谋的设计。
通过这些计谋,综述旨在展示如何以资本高效的方式预训练庞大谈话模型,不仅加速了训练过程,还确保了先进 LLM 的可持续和本钱效益发展。
3. 庞大谈话模型微调:平衡性能与资本
该综述探讨了 GPT-4 等庞大谈话模型在特定任务上的微调计谋。这些计谋旨在在实现任务特定性能和维持资本效劳之间找到平衡点。
参数高效微调
基于遮蔽的微调:仅更新模型参数的子集,其他参数在反向传播过程中被「冻结」或遮蔽。
基于适配器的微调:在预训练模型的现有层之间插入额外的轻量级层(适配器)。在微调期间,只更新这些适配器层的参数,而原始模型参数保持固定。
全参数微调:与参数高效微调不同,全参数微调涉及修改所有参数。尽管训练本钱更高,但通常可以获得比参数高效格式更好的性能。然而,这种格式在简单数据集上可能并不总是有效,且在训练本钱和 GPU 内存消耗方面也面临挑拨。
通过这些计谋,综述旨在展示如何在保证庞大谈话模型性能优化和资本限制之间达到平衡的微调格式。
4. 庞大谈话模型判断:追求效劳与质量
该综述探讨了如 GPT 系列的庞大谈话模型在判断阶段的优化技巧,重点是增加盘算负载和内存使用,同时保持高质量输出。
模型压缩
剪枝:通过移除模型中的特定参数来降低复杂度。包括结构化剪枝(针对整体结构,如神经元或通道)和非结构化剪枝(针对单个权重或连接)。
量化:将模型中的浮点数转换为较少位数的表示(如整数),旨在增加模型存储需求和加快盘算速度。
知识蒸馏:将庞大模型的知识转移到更紧凑的网络中,以增加判断延迟并增强特定任务解决能力。
动态加速
早期退出:根据某些标准提前终止模型的某些层的盘算,用于简化输入样本的处理。
输入裁剪:动态增加输入序列长度,根据内容来分配不同的盘算资本给不同的输入标记。
标记并行:利用技巧如推测执行来并行生成多个标记,而非传统的顺序方式。
通过这些计谋,综述旨在展示如何在实际应用中高效布置庞大谈话模型,同时考虑资本限制和性能需求。
5. 庞大谈话模型的零碎设计:优化与应用
该综述探讨了如 GPT 系列的庞大谈话模型在零碎设计方面的枢纽计谋,特别是在资本受限环境中的高效判断。
布置优化
硬件卸载:通过将临时不需要的数据从快速加速器转移到更慢但更大的主、辅存储(如 CPU 内存和磁盘)中,优化庞大 LLM 的运行效劳。有效的卸载计谋对整体零碎效劳至关重要。
协作判断:多个用户或零碎合作完成 LLM 的判断任务,每个参与者贡献自己的资本,如盘算能力或数据,以克服个体用户或零碎的限制,实现更高效、准确的判断。
支持基础设施
库:介绍了几个著名的庞大谈话模型框架,如 DeepSpeed、Megatron-LM、Colossal-AI、Mesh-TensorFlow 和 GPT-NeoX,它们为大规模分布式训练提供多级并行计谋。
边缘设备:探索在边缘设备上布置 LLM 的研究趋势,这些设备通常具有有限的盘算资本。例如,通过低秩适应和噪声对比估计等技巧来降低 LLM 在边缘设备上的内存需求。
其他零碎
Tabi:提出了一个多级判断引擎的判断零碎,通过使用多个 DNN 处理任务中的异构查询来增加 LLM 的判断延迟。
近重复序列搜索:利用最小哈希技巧来提高 LLM 的近重复序列搜索的效劳和可扩展性。
通过这些计谋,综述旨在展示庞大谈话模型在各种布置场景中的零碎设计如何实现效劳和可扩展性的最大化。
四、庞大谈话模型资本效劳技巧分类总结
该综述探讨了应用于庞大谈话模型(LLM)以提升其在不同资本上的效劳的多种技巧。这些资本包括盘算、内存、动力、财务本钱和网络通信。每项技巧在优化 LLM 资本效劳方面扮演着重要角色。
盘算效劳
直接影响:包括具有近似和硬件感知注意力机制的变换器架构,通过简化盘算密集的注意力盘算来加速过程;非结构化、结构化和上下文剪枝,通过移除不重要的权重或神经元来增加冗余盘算。
间接影响:数据并行和参数高效微调,通过分布式工作负载和增加参数更新分别间接提高盘算效劳。
内存效劳
直接影响:剪枝和量化通过增加模型大小来显著节约内存;知识蒸馏通过训练较小的模型来模仿较大的模型。
间接影响:分布式训练,如数据和模型并行,有效管理多设备间的内存使用,减轻单个设备的负担。
动力效劳
直接影响:结构化剪枝和量化通过增加操作数量和数据大小,降低训练和判断的动力消耗;上下文剪枝通过最小化不必要的盘算来节省动力。
间接影响:近似注意力机制等主要面向盘算效劳的技巧,由于增加了盘算负载,间接促进动力节省。
财务本钱效劳
间接影响:数据效劳格式,如优化的训练目标和数据增强,通过提高数据使用效果,可能缩短训练时间,增加盘算资本使用;动态判断技巧,如早期退出和输入裁剪,通过增加判断阶段的运算需求,降低整体布置本钱。
网络通信效劳
直接影响:混合精度训练通过增加处理器间需要通信的数据大小,直接影响数据传输效劳;权重量化通过最小化通信过程中的数据负载。
间接影响:协作判断通过优化数据传输和处理来提高网络通信效劳。
通过这些计谋,该综述旨在展示如何通过多种技巧提高庞大谈话模型在各种资本上的效劳。详细的技巧与资本的对应关系可见下表。
五、庞大谈话模型评价数据集和目标
该综述详细分析了评价庞大谈话模型(LLM)资本效劳的多元化目标,这些目标为全面理解 LLM 的资本效劳提供了枢纽指导。
盘算效劳目标
FLOPs:浮点运算次数,量化盘算效劳。
训练时间:训练 LLM 所需的总时间,反映了模型复杂性。
判断时间 / 延迟:LLM 生成输出所需的时间,枢纽评价实际应用中的实用性。
吞吐量:LLM 处理请求的效劳,以每秒生成的标记或完成任务的速度衡量。
加速比:与基准模型相比判断速度的改善程度。
内存效劳目标
参数数量:LLM 神经网络中可调变量的数量。
模型大小:存储整个模型所需的存储空间。
动力效劳目标
动力消耗:以瓦时或焦耳表示,反映 LLM 生命周期中的电力使用。
碳排放:与模型动力使用相关的温室气体排放量。
财务本钱效劳目标
每参数本钱:训练(或运行)LLM 的总本钱除以参数数量的比值。
网络通信效劳目标
通信量:在特定 LLM 执行或训练过程中网络间传输的数据总量。
其他目标
压缩比:压缩模型与原始模型大小的比例。
忠诚度和保真度:衡量教师和学生模型之间预测一致性和预测概率分布对齐程度。
鲁棒性:衡量 LLM 对攻击后性能和查询次数。
帕累托最优性:在不同竞争因素间取得的最佳平衡。
数据集和基准测试
Dynaboard:动态基准,评价内存使用、吞吐量、公平性和鲁棒性等目标。
EfficientQA:聚焦建立准确、内存高效的开放范围问答零碎。
SustaiNLP 2020:挑拨参与者开发动力高效的 NLP 模型。
ELUE 和 VLUE:专注于评价 NLP 和视觉谈话模型的效劳和性能。
Long-Range Arena:专为评价长内容任务上高效 Transformer 模型而设计。
Efficiency-aware MS MARCO:在 MS MARCO 信息检索基准测试中增加了效劳目标。
通过这些计谋,该综述旨在提供一种全面评价庞大谈话模型资本效劳的格式论。
六、庞大谈话模型的未来挑拨和研究方向
随着庞大谈话模型(LLM)范围的不断进步,我们面临着多种开放性挑拨,这些挑拨为未来的研究方向提供了丰富的机遇。
处理资本类型的冲突:不同优化技巧之间存在性能目标的权衡,如盘算效劳与模型参数数量的矛盾。枢纽挑拨在于开发全面优化计谋,平衡盘算效劳、参数计数和内存使用等多个目标。
资本效劳技巧的综合:有效整合多种 LLM 优化格式以增强总体资本效劳是一个显著挑拨。目前缺乏对这些格式如何协同作用的研究,需要零碎地结合不同计谋,以显著提高模型效劳。
标准化和统一评价:当前缺乏专门评价 LLM 资本效劳的统一标准基准。这导致无法全面一致地评价各种 LLM 在资本利用方面的表现,迫切需要专注于资本效劳的标准化基准。
可解释性和鲁棒性:在追求效劳的同时,也需关注 LLM 的可解释性和鲁棒性。开发既优化资本使用又保持透明度和弹性的格式,确保这些模型在不同布置场景中可靠且易于理解。
自动化机器学习(AutoML)在资本高效 LLM 中的应用:将 AutoML 集成到资本高效 LLM 的开发中是一个新兴范围。通过应用 Meta-Learning 和神经架构搜索(NAS),自动化模型优化的部分,有望增加手动超参数调整和定制模型设计的需求。
边缘盘算中的 LLM:在边缘盘算环境中布置 LLM 面临独特挑拨,如设备的盘算能力和内存资本限制。需要开发既资本高效又考虑隐私问题的 LLM 技巧,以适应边缘盘算场景。
理论洞察 LLM 的扩展规律:深入理解 LLM 性能如何随其规模和复杂性扩展是一个枢纽且未被充分探索的范围。这种理解对于开发不仅专注于模型压缩,而是针对提高 LLM 整体资本效劳的格式至关重要。
七、结论
本综述深入探讨了庞大谈话模型(LLM)的资本效劳问题,分析了当前的研究成果和挑拨,并展望了未来的发展方向。它还讨论了 LLM 在盘算、内存、动力、财务本钱和网络通信等枢纽资本方面的高效技巧,以及这些技巧如何相互作用以提高整体效劳。通过对比各种技巧,综述揭示了它们在不同应用环境中的潜力和限制。
作者还强调了在资本效劳评价中建立标准化和统一的评价体系的重要性。这不仅有助于更准确地比较不同 LLM 的性能,也为进一步的研究和开发提供了坚实的基础。
最后,综述探讨了 LLM 范围面临的一系列开放性挑拨和潜在的研究方向,包括管理资本类型的冲突、综合资本效劳技巧、可解释性和鲁棒性、AutoML 的集成以及在边缘盘算环境中布置 LLM。这些挑拨提供了未来研究的丰富机遇,对于推动 LLM 向更高效、更可靠和更可持续的方向发展至关重要。
本综述为理解和优化 LLM 的资本效劳提供了全面的视角,为未来在这一重要范围的研究提供了指导和灵感。