如何高效摆设大模型？CMU最新万字综述纵览LLM推理MLSys优化技术

近日，CMU Catalyst 团队推出了一篇关于高效 LLM 推理的综述，覆盖了 300 余篇相关论文，从 MLSys 的钻研视角介绍了算法创新和零碎优化两个方面的相关进展。在人工智能（AI）的快速发展背景下，大语言模型（LLMs）凭借其在语言相关任务上的杰出表现，已成为 AI 领域的重要推动力。然而，随着这些模型在各种运用中的普及，它们的复杂性和规模也为其摆设和效劳带来了前所未有的挑衅。LLM 摆设和效劳面临着密集的较量争论强度和巨大的内存消耗，特别是在要求低延迟和高吞吐量的场景中，如何提高 LLM 效劳效益，降低

近日，CMU Catalyst 团队推出了一篇关于高效 LLM 推理的综述，覆盖了 300 余篇相关论文，从 MLSys 的钻研视角介绍了算法创新和零碎优化两个方面的相关进展。

在人工智能（AI）的快速发展背景下，大语言模型（LLMs）凭借其在语言相关任务上的杰出表现，已成为 AI 领域的重要推动力。然而，随着这些模型在各种运用中的普及，它们的复杂性和规模也为其摆设和效劳带来了前所未有的挑衅。LLM 摆设和效劳面临着密集的较量争论强度和巨大的内存消耗，特别是在要求低延迟和高吞吐量的场景中，如何提高 LLM 效劳效益，降低其摆设成本，已经成为了当前 AI 和零碎领域亟需解决的问题。

来自卡内基梅隆大学的 Catalyst 团队在他们的最新综述论文中，从机器学习零碎（MLSys）的钻研视角出发，详细分析了从前沿的 LLM 推理算法到零碎的革命性变革，以应对这些挑衅。该综述旨在提供对高效 LLM 效劳的当前状态和未来标的目的的全面理解，为钻研者和实践者提供了宝贵的洞见，帮助他们克服有效 LLM 摆设的障碍，从而重塑 AI 的未来。

如何高效摆设大模型？CMU最新万字综述纵览LLM推理MLSys优化技术

论文链接：https://arxiv.org/abs/2312.15234

该论文的第一作者是卡内基梅隆大学的 Xupeng Miao（苗旭鹏）博士后钻研员，合作者还包括 Tianqi Chen 和 Zhihao Jia 助理教授。此外，其他学生作者也均来自于 CMU Catalyst Group 实验室，该实验室由 Zhihao Jia 与 Tianqi Chen（陈天奇）在 CMU 共同主持，致力于集成来自于机器学习算法、零碎、硬件等多方面的优化技术，构造自动化的机器学习零碎。此前，该实验室还推出了 SpecInfer, MLC-LLM, SpotServe [ASPLOS‘24] 等开源项目，推进 LLM 大模型相关零碎的钻研和运用。实验室主页：https://catalyst.cs.cmu.edu。

综述概览

该综述零碎地审视了现有 LLM 推理技术，覆盖了 300 余篇相关论文，从算法创新和零碎优化两个方面展开介绍。论文以此为基础，对现有事务设计了一套清晰且详尽的分类法，突出了各种步骤的优势和局限性，逐类别搜集整理并介绍了每种步骤的相关论文。除此之外，论文还对当前的主流 LLM 推理框架在零碎设计与实现方面进行了深入的对比和分析。最后，作者对未来如何继续提高 LLM 推理效益进行了展望，在技术层面提出了六大潜在发展标的目的。

分类法

如何高效摆设大模型？CMU最新万字综述纵览LLM推理MLSys优化技术

算法创新

这一节对提出的各种算法和技术进行了全面分析，旨在改进大规模 Transformer 模型推理的原生性能缺陷，包括解码算法、架构设计、和模型压缩等等。

如何高效摆设大模型？CMU最新万字综述纵览LLM推理MLSys优化技术

解码算法：在这一部分中，我们回顾了在图 2 中展示的几种 LLMs 推理优化过程的新颖解码算法。这些算法旨在减少较量争论复杂度，并提高语言模型推理在生成任务中的总体效益，包括：

非自返回解码：现有 LLMs 的一个主要限制是默认的自返回解码体制，它逐个顺序生成输出 token。为解决这一问题，一种代表性的事务标的目的是非自返回解码 [97, 104, 108，271]，即放弃自返回生成范式，打破单词依赖并假设一定程度的条件独立性，并行解码输出 token。然而，尽管这类步骤解码速度有所提高，但大多数非自返回步骤的输出质量仍不如自返回步骤可靠。

取巧式推理：另一类事务是通过取巧执行思想 [47] 实现并行解码。自返回 LLM 推理过程中的每个解码步骤都可以被视为带有条件分支的程序执行语句，即决定接下来生成哪个 token。取巧式推理 [51, 155] 先使用较小的草稿模型进行多步解码预测，然后让 LLM 同时验证这些预测以实现加速。然而，将取巧解码运用于 LLMs 时仍然存在一些实际挑衅，例如，如何使解码预测足够轻量且准确，以及如何借助 LLMs 实现高效的并行验证。SpecInfer [177] 首次引入基于 tree-based speculative decoding 和 tree attention，并提出了一个低延迟 LLM 效劳零碎实现，该体制也被后续多个事务 [48, 118, 168, 185, 229, 236, 274, 310] 直接采用。

提前退出：这类步骤主要利用 LLMs 的深层多层结构，在中间层提前推出推理，中间层输出可以通过分类器转化成输出的 token，从而降低推理开销 [117, 147, 163, 167, 234, 272, 282, 291, 308]，它们也被称为自适应较量争论 [68, 219]。

级联推理：这类步骤级联了多个不同规模的 LLM 模型，用于分别处理不同复杂度的推理请求，代表性事务包括 CascadeBERT [157] 和 FrugalGPT [53]。

架构设计：

配置缩小：直接缩小模型配置。

注意力简化：最近出现了很多钻研事务，它们主要是将之前的长序列高效注意力体制 [240] 运用在 LLM 上，以缩短上下文，减少 KV 缓存，以及注意力复杂度，同时略微降低解码质量（如滑动窗口 [129, 299]、哈希 [198]、dilated [74]、动态选择等等）。表 1 中总结了一些近期的热门步骤和之前的事务之间的对应关系。

如何高效摆设大模型？CMU最新万字综述纵览LLM推理MLSys优化技术

激活共享：这类步骤主要是通过共享 attention 较量争论的中间激活来降低推理内存开销，代表性事务包括 MQA [220] 和 GQA [32]。

条件较量争论：这类步骤主要是指稀疏专家混合模型（Sparse MoE），比如最近大火的 Mistrial 7Bx8 模型就属于此类。

循环单元：尽管 Transformer 已经替代了 RNN 模型，但考虑到注意力体制的二次复杂性，人们始终未曾放弃将 recurrent unit 体制重新引入 LLM 的尝试，比如 RWKV [200]、RetNet [235]，以及状态空间模型 [91, 102, 103, 176] 等等。

模型压缩：

知识蒸馏：这类步骤以大型的教师模型为监督，训练一个小型的学生模型。大多数之前的步骤都在试探白盒蒸馏 [106, 133, 214, 233, 255]，需要访问整个教师模型的参数。由于基于 API 的 LLM 效劳（如 ChatGPT）的出现，一些黑盒蒸馏模型吸引了很多关注 [238,59, 273, 201, 313]，这些模型通常具有更少的模型参数，与原始 LLMs（如 GPT-4 [195]）相比，在各种下游任务上表现出了相当的性能。

网络剪枝：过去几年中，网络剪枝步骤 [180, 215, 215] 已被广泛钻研，但并非所有步骤都可以直接运用于 LLMs，需要考虑重新训练可能带来的过高较量争论成本，以及评估剪枝是否可以在底层零碎实现上取得效益提升。大致上可以分为结构化剪枝 [80, 149, 174, 216, 172] 和半结构化稀疏化 [40, 87, 232, 251, 276] 等。

零碎优化

本节钻研 LLM 推理零碎优化技术，以加速 LLM 推理，而不改变 LLM 较量争论语义。这一事务的目标是通过改进用于大型语言模型推理的底层零碎和框架来提高零碎效益，包括低比特量化、并行较量争论、内存管理、请求调度、和内核优化等等，详细内容可以参见论文原文。

软件框架

如何高效摆设大模型？CMU最新万字综述纵览LLM推理MLSys优化技术

论文还对一些目前最先进的基于 GPU 的开源 LLM 推理零碎进行了深入的分析，并从多个方面总结了它们在设计与实现伤的差异。

未来标的目的

专用硬件加速器的发展：生成型 LLM 效劳效益的显著提升可能在很大程度上依赖于专用硬件加速器的发展和提升，尤其是软硬协同设计步骤。例如，让内存单元更加接近处理单元，或是针对 LLM 算法数据流优化芯片架构，这些硬件优化可以在很大程度上为 LLM 推理在软件层面带来便利和机会。

高效有效的解码算法：开发更高效的解码算法可以显著提高效劳效益。受对实时运用更快生成速度的需求驱动，一个有前途的标的目的是广义的取巧式推理（generalized speculative inference），不仅会带来显著加速，同时保持相同的生成质量。正如 SpecInfer 中所指出的，广义的取巧式推理中，用于生成草稿 token 的小模型可以被替换为任何快速的 token 生成步骤，比如自定义函数、召回步骤、甚至早停体制和非自返回解码等等。

长上下文 / 序列场景优化：随着运用场景变得更加复杂，处理更长的上下文或序列的需求不断增长。效劳长序列负载的 LLM 需要解决算法和零碎两方面的挑衅。在算法方面，它们依然面临长度泛化失效问题，甚至可能出现 “loss in the middle” 的情况。目前的解法主要是通过召回增强、序列压缩和缓存来尽可能缩短序列长度并保存相关信息。

试探替代基础架构：尽管 Transformer 模型和自注意力体制目前主导着 LLM 领域，但试探替代架构是未来钻研的一个有前景的标的目的。例如，一些最新钻研试探了无注意力步骤，使用纯 MLP（多层感知机）架构来替代注意力体制，可能会改变目前 LLM 推理优化的格局。

在复杂环境中的摆设试探：随着 LLM 运用的扩展，试探并优化它们在各种复杂环境中的摆设成为一个关键的未来标的目的。这一试探不仅限于传统的基于云的摆设，还包括边缘较量争论、混合较量争论（cloud+edge）、去中心化较量争论以及廉价的可抢占资源等。

特定需求的自动适应：运用特定需求的多样性创造了一系列创新的 LLM 效劳优化机会，例如模型微调（parameter-efficient fine-tuning）、向量数据库检索、多模态负载等等。这些独特的挑衅也要求将 LLM 效劳技术自动且顺利地集成到现有 IT 基础设施中，将优化空间扩展到整个 LLM 生命周期。

总结

总的来说，该综述不仅是对当前 LLM 效劳优化钻研的全面概述，也为未来在这一领域的试探和发展指明了标的目的。通过深入了解这些先进的解决方案，钻研者和实践者可以更好地理解和应对在实际运用中摆设大型语言模型时面临的挑衅。

{{userData.name}}已认证

如何高效摆设大模型？CMU最新万字综述纵览LLM推理MLSys优化技术

优于3D模型，成功率达90.6%，基于扩散的生成式AI从2D分子图摸索过渡态

Nat.Commun.|山东大学团队基于图transformer开发了一种希有细胞群组学分析方法

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！