SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。 当前研究尚未充分关注解码阶段的优化,这一阶段具有同等重要性,因为:1、对需要完整上下文的场景,预填充阶段的过度压缩会显著降低模型的推理理解能力2、在长输出推理任务中存在重要特征的显著偏移现象这篇论文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存优化策略,实现高效的缓存管理。 该框架保留预填充阶段的关键KV缓存信息,同时引入基于滑动窗口的新型策略,用于解码阶段重要特征的高效选取。

Key-Value (KV)缓存已成为大语言模型(LLM)长文本处理的关键性能瓶颈。当前研究尚未充分关注解码阶段的优化,这一阶段具有同等重要性,因为:

1、对需要完整上下文的场景,预填充阶段的过度压缩会显著降低模型的推理理解能力

2、在长输出推理任务中存在重要特征的显著偏移现象

这篇论文提出SCOPE框架,通过分离预填充与解码阶段的KV缓存优化策略,实现高效的缓存管理。该框架保留预填充阶段的关键KV缓存信息,同时引入基于滑动窗口的新型策略,用于解码阶段重要特征的高效选取。

关键发现

KV缓存的推理过程分析

LLM的每次请求包含两个独立阶段:预填充阶段处理完整输入提示以生成初始输出标记;解码阶段通过迭代方式逐个生成后续输出标记。

预填充阶段分析

下图展示了在完整解码缓存条件下,三个任务在不同预填充阶段压缩比率下的性能表现:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

Long-Bench中的PassageRetrieval-en和HotpotQA任务表现出显著的压缩容忍度:即使在20%的预填充阶段压缩比率下,模型仍能保持与完整缓存相近的性能水平,证实了模型在高压缩率下维持上下文理解能力的鲁棒性。然而在LONGGENBENCH的GSM8k+任务中,同样的20%压缩率导致准确率下降约95%

实验结果表明:对于依赖完整上下文的推理任务,预填充阶段的过度压缩会导致显著的性能损失

解码阶段分析

下图描述了在解码步骤1、300和500时,基于前15%注意力分数选取的重要特征在0、13和31层的位置分布:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

观察发现,各层中保留的重要特征主要源自解码阶段生成的KV缓存,在长输出任务中,随着输出序列延长,特征偏移现象愈发显著。这一现象要求在保持预填充阶段识别的重要特征的同时,对解码阶段新出现的重要特征实施有效管理。数据表明,长文本生成的解码阶段采用贪婪算法可能引发重要特征的显著偏移

KV缓存预算分配优化

下图呈现了LONGGENBENCH中GSM8k+样本第13层的注意力热力图,以及注意力分数与生成标记位置的对应关系:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

图中最左侧和最右侧分别对应预填充和解码阶段。对于需要并行处理多个问题的推理任务,准确定位当前预测位置至关重要。如图所示,这些关键信息可通过贪婪算法识别的重要特征有效捕获。预填充和解码阶段的KV缓存预算需要独立分配以实现最优性能。这一发现启发了SCOPE框架的设计理念:通过解耦预填充和解码阶段的压缩过程,实现KV缓存预算的精确分配,在保留预填充阶段全部KV缓存的同时,优化缓存预算的重分配效率

方法论

KV缓存压缩机制重构

初始化过程

KV缓存压缩的核心在于基于预设缓存预算进行动态调整。本文构建了缓存池Φ,其包含两个子集:存储预填充阶段KV缓存的Φp和存储解码阶段KV缓存的Φd。缓存池在时间步t实时更新,记为Φt。采用广泛验证的贪婪算法函数ΨK(Att)从给定注意力权重Att中筛选Top-K KV缓存

预填充阶段设计

定义输入提示张量P ∈ RM×D,其结构为P = {P1,P2, . . . ,PM},其中:

  • Pi表示第i个标记的嵌入向量
  • M为输入标记数量
  • D为模型隐藏维度

键值张量的计算公式如下:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

其中:

  • WK,WV ∈ RD×D分别为键和值的投影权重矩阵
  • KV对表示为KPVP
  • 注意力权重AttP通过P和KPVP计算得出,预填充阶段的压缩表达式:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

其中:

·表示张量连接操作

函数Ψα1(AttP)从AttP[: −α2]中选择具有最高Top-α1注意力权重的KV缓存

解码阶段实现

解码阶段复用预填充阶段的KV缓存,并通过序列生成过程持续更新,对于时间步t处的新标记张量Xt,t∈{1,T },键值计算如下:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

过程中,KtVt与缓存池Φ中的历史KV缓存进行连接,形成当前时刻的KV对。随后与查询张量Xt计算得到注意力权重Attt

  • 本方法与现有KV压缩方案的核心区别在于Φp和Φd在缓存池Φ中的动态分配机制

SCOPE框架详解

针对解码阶段设计了三种优化策略:滑动窗口、自适应调整和不连续更新,这些策略均专注于Φd的优化

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

滑动窗口机制

通过动态调整解码必要历史窗口β1和解码局部窗口β2实现解码阶段的KV缓存压缩:

  • β1负责捕获当前预测位置的上下文信息
  • β2保存与历史标记高度相关的全局特征

滑动策略在t > M + β1 + β2时触发,通过函数Ψβ1 (Attt[α1 + α2 : −β2])实现对Φd的定向更新,同时保持Φp不变。该机制通过限制选择函数Ψ的操作范围(从α1 +α2开始的Attt),有效规避了预填充阶段注意力权重的干扰

自适应调整策略

针对解码生成标记长度较短的情况,引入动态调整机制,避免过长的解码必要历史窗口β1导致的资源浪费。设计了基于时间步骤t和最大长度T的自适应函数,用于动态调整β1长度,其中T ≫ β1 + β2。窗口大小从基准值β2起始,随时间步t线性增长:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

特征:

  • 当t < T时,Φdt的预算规模为β2+(t−β2)·β1/ T−β2
  • 该设计有效优化内存利用率,因比率(t−β2 (T−β2)恒小于1
  • t达到T时,Φdt规模收敛于β1 + β2
  • 此调整机制与LLM的自回归编码特性高度契合,在不引入额外超参数的前提下提升资源利用效率

不连续更新机制

传统策略中,Top-K选择操作ΨK(Att)需执行T − β2次,这种频繁的GPU I/O操作带来显著性能开销。基于连续查询倾向于选择相似键的特性,提出不连续更新策略:

1、将Top-K选择操作ΨK(Att)的执行频率优化为每T−β2/β1间隔执行一次ζ

2、相比于传统的逐步执行方式,显著降低了计算开销

实验评估

实验环境配置

基于两个主流开源大语言模型构建实验平台:

  • LLaMA-3.1–8B-Instruct
  • Mistral-7B-Instruct-v0.3

Φp参数配置:

  • LongGenBench-4K场景:α1 + α2 = 2048(约占输入长度60%)
  • LongGenBench-8K场景:α1 + α2 = 4096(约占输入长度60%)
  • α2统一设置为8
  • β1 + β2参数设置:
  • 4K输出配置:512
  • 8K输出配置:1024
  • β2固定为256,用于适配答案中的推理链(Chain-of-Thought)长度,避免序列过短引发的性能退化

性能评估结果

基准系统对比分析

下表展示了在LONGGENBENCH基准测试中,基于LLaMA-3.1–8B-Instruct的SCOPE三种策略与现有方法的性能对比:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

实验结果分析:

SCOPE框架的三种策略在所有解码压缩方案中均实现最优性能,其中针对内存使用和传输优化的不连续策略表现尤为突出。在高难度GSM8K+/GSM8K++任务上,SCOPE通过保留预填充阶段KV缓存的策略展现显著优势,而其他压缩方法出现明显的性能衰减。PyramidInfer与H2O的性能差异不显著,表明在长序列输出任务中,层间稀疏性特征的影响相对有限

预填充方法集成验证

下表呈现了LLaMA3.1-8B在LONGGENBENCH-4K的GSM8K+任务上的方法集成实验数据:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

关键发现:

  • 部分优化策略在仅使用65%原始KV缓存的情况下,实现了超越完整缓存的性能表现
  • PyramidKV(SnapKV的变体)通过跨层预算重分配的尝试未能带来显著改善,验证了前期实证研究结果
  • 预填充阶段保留的KV缓存表现出类似StreamingLLM中"注意力汇聚点"的特性

深入分析

必要特征损失的缓解效果

H2O等统一压缩方法由于重要特征偏移导致关键KV缓存损失,影响了上下文理解能力,下图描述了预测位置与模型性能的关联关系:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

数据显示H2O在后期预测中出现显著性能下降,而SCOPE的三种策略有效缓解了这一问题,证实了预填充KV缓存保留策略的有效性

关键参数影响分析

解码阶段的两个核心参数:

  • KV缓存预算 β1+β2
  • 特征选择算法 ΨK(Att)

下图展示了基于两种主流top-K选择算法对预算参数进行缩放的实验结果:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

与预填充阶段相比,解码阶段展现出更强的压缩容忍度:25%的压缩率仅导致15%的性能降低,而类似压缩率在预填充阶段会导致GSM8k+任务性能的显著下降

系统效率评估

基于滑动窗口策略的自适应和不连续优化显著提升了内存效率,具体数据如下表:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

相较于完整缓存和单一预填充压缩方案,本文提出的方法和统一压缩策略通过降低KV缓存存储量,有效缓解了内存压力,自适应策略通过动态预算调整机制进一步优化了系统性能。

泛化能力验证

下图展示了在β1 + β2 = 512配置下,∞BENCH中En.Sum任务的实验结果:

SCOPE:面向大语言模型长序列生成的双阶段KV缓存优化框架

实验表明SCOPE的三种策略均优于完整缓存配置,充分验证了该框架的泛化能力

局限性分析

SCOPE框架通过分离预填充和解码阶段实现长文本生成任务的优化,在两个阶段均采用Top-K算法进行特征选择。当前框架存在以下待改进方向:

1、预填充阶段仍沿用传统top-K算法,未来研究可探索分块处理或其他新型技术,以提升历史标记的估计精度

2、解码阶段每步执行Top-K操作导致频繁的GPU I/O开销。虽然不连续策略在一定程度上优化了操作频率,但仍可通过减少I/O数据量进一步降低系统延迟

3、当前SCOPE主要验证了文本模态的长输出任务优化效果。框架具有扩展到视觉领域的潜力,特别是在多图像生成等需要大量KV缓存的任务场景

总结

SCOPE框架针对LLM长文本生成中的KV缓存优化问题提供了系统性解决方案。

通过实验观察发现两个关键问题:

预填充阶段的过度压缩对推理能力造成显著影响,解码过程中存在重要特征的偏移现象。

SCOPE通过以下机制解决上述问题:

保持预填充阶段必要的KV缓存完整性;引入滑动窗口策略实现解码阶段KV缓存的高效管理。

大规模实验验证表明:

SCOPE仅使用35%原始内存即可达到接近完整KV缓存的性能水平,并且保持了与现有预填充压缩方法的良好兼容性。

相关资讯

用童话训练AI模型,微软找到了探索生成模型参数的新切入点

即便大语言模型的参数规模日渐增长,其模型中的参数到底是如何发挥作用的还是让人难以琢磨,直接对大模型进行分析又费钱费力。针对这种情况,微软的两位研究员想到了一个绝佳的切入点,用生成简练但是又涵盖各种常见逻辑和语法的童话故事来作为模型的生成任务,这样做能在减少模型的学习负担的同时,保留模型对逻辑和语法的学习能力,进而用小模型来分析参数发挥的作用。这种方法可能会开创一条新的研究道路。人们都知道,学英语不是一件容易的事。但假如「学生」是一台计算机,就可以这样高效地学英语:只需将互联网上堆积如山的文本,输入一个名为神经网络的

下一代自动驾驶系统,少不了大模型,系统调研来了

本文介绍了将多模态大语言模型(MLLMs)整合到下一代自动驾驶系统中的模式。随着大语言模型 (LLM) 和视觉基础模型 (VFM) 的出现,受益于大模型的多模态人工智能系统有潜力像人类一样全面感知现实世界、做出决策。在最近几个月里,LLM 已经在自动驾驶研究中引起了广泛关注。尽管 LLM 具有巨大潜力,但其在驾驶系统中的关键挑战、机遇和未来研究方向仍然缺乏文章对其详细阐明。在本文中,腾讯地图、普渡大学、UIUC、弗吉尼亚大学的研究人员对这个领域进行了系统调研。该研究首先介绍了多模态大型语言模型 (MLLM) 的背景

总结374篇相关工作,陶大程团队联合港大、UMD发布LLM知识蒸馏最新综述

大语言模型(Large Language Models, LLMs)在过去两年内迅速发展,涌现出一些现象级的模型和产品,如 GPT-4、Gemini、Claude 等,但大多数是闭源的。研究界目前能接触到的大部分开源 LLMs 与闭源 LLMs 存在较大差距,因此提升开源 LLMs 及其他小模型的能力以减小其与闭源大模型的差距成为了该领域的研究热点。LLM 的强大能力,特别是闭源 LLM,使得科研人员和工业界的从业者在训练自己的模型时都会利用到这些大模型的输出和知识。这一过程本质上是知识蒸馏(Knowledge,