无需训练!Q-Filters 实现 KV 缓存高效压缩,提升推理性能

近年来,基于 Transformer 架构的大型语言模型(LLMs)取得了显著进展,诸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能够处理成百上千的token。 然而,这些扩展的上下文长度带来了实际应用中的一些重大挑战。 随着序列长度的增加,解码延迟上升,内存限制也成为了一个严重的瓶颈。

近年来,基于 Transformer 架构的大型语言模型(LLMs)取得了显著进展,诸如 Gemini-Pro1.5、Claude-3、GPT-4和 Llama-3.1等新模型能够处理成百上千的token。

然而,这些扩展的上下文长度带来了实际应用中的一些重大挑战。随着序列长度的增加,解码延迟上升,内存限制也成为了一个严重的瓶颈。KV 缓存在推理过程中储存上下文信息,随着上下文长度的增加,缓存的大小也呈比例增长,这导致内存饱和,严重影响了处理长输入序列的效率,因此迫切需要优化解决方案。

QQ_1741335458994.png

虽然市场上存在一些无训练的方法,但它们通常依赖于获取注意力权重来确定键值对的重要性,这使其与高效的注意力算法(如 FlashAttention)不兼容。这些方法往往需要对注意力矩阵进行部分重新计算,从而引入了时间和内存开销。因此,现有的压缩算法主要用于在生成答案之前压缩提示,而非优化在内存受限的生成过程中。这一局限性强调了需要开发既能保持模型性能又不需要架构修改的压缩技术。

来自索邦大学、法国国家信息与自动化研究所、罗马萨平扎大学、爱丁堡大学和 Miniml.AI 的研究团队提出了 Q-Filters,这是一种强大的无训练 KV 缓存压缩技术,利用基于查询的过滤方法来优化内存使用,同时保持模型性能。Q-Filters 通过评估与当前查询相关的键值对的重要性,而不是依赖于注意力权重。这种方法确保了与高效注意力算法的兼容性,且无需重新训练或修改架构。通过动态评估并保留最相关的上下文信息,Q-Filters 实现了显著的内存减少,同时维持了推理质量。

QQ_1741335465420.png

Q-Filters 在多个评估场景中表现出色,始终优于现有的 KV 缓存压缩方法。在对 Pile 数据集的语言建模测试中,该技术在所有压缩方案中实现了最低的困惑度。特别是在 Llama-3.1-70B 模型上,Q-Filters 在上下文保留至关重要的序列后半部分显示出显著的困惑度降低。

在 “针在干草堆” 任务中,Q-Filters 保持了91% 的准确率,成功地保存了极端上下文长度(从1K 到64K token)中的重要信息。综合评估还验证了该方法的优越性,尤其是在高压缩率下(32倍),Q-Filters 在长上下文建模基准测试中取得了最高分。

论文:https://arxiv.org/abs/2503.02812

huggingface:https://huggingface.co/collections/nthngdy/q-filters-67a4994dcb302a3d37f3d119

划重点:

🔍 Q-Filters 是一种无训练的 KV 缓存压缩技术,能够有效优化内存使用而不损失模型性能。

📊 该方法在多个评估中表现优越,特别是在语言建模和极端上下文任务上取得了最低的困惑度和最高的准确率。

🛠️ Q-Filters 与高效注意力算法兼容,且只需在模型训练后进行一次准备步骤,便可用于实际应用。

相关资讯

LLMs.txt生成器 v2发布:网站文本转换速度提升10倍

近日,LLMs.txt生成器迎来重大升级,正式推出v2版本。 这一工具能够将任何网站内容快速转化为可供人工智能代理或大型语言模型(LLM)使用的文本文件,为AI应用的开发者和使用者带来了极大便利。 新版本由@firecrawl_dev团队开发,并得到其官方llmstxt端点的全力支持,相较于上一代,处理速度提升了惊人的10倍。

清华大学开源 Video-T1:无需重新训练 AI视频秒变高清大片

近日,清华大学的研究团队开源了其最新的研究成果——Video-T1。 这项技术的核心在于测试时缩放 (Test-Time Scaling, TTS),旨在通过在视频生成过程的推理阶段投入更多的计算资源,显著提升生成视频的质量和与文本提示的一致性,而无需重新进行昂贵的模型训练。 这一创新性的方法为视频生成领域带来了新的可能性。

亚马逊推出个性化购物提示,推动生成式 AI 应用

亚马逊近日在其购物工具中进一步融合了人工智能,以鼓励消费者增加购买。 该公司在周三宣布推出新功能 “兴趣”,旨在打造个性化和对话式的搜索体验。 通过这一新功能,用户可以在搜索栏中输入与自身兴趣、偏好甚至预算相关的定制化提示。