大模型前缀缓存技术，有望将服务成本降低90%

2025-02-17 10:49

译者 | 核子可乐审校 | 重楼是不是总感觉ChatGPT响应缓慢？大家可能没有留意，大模型应用程序的提示词重复率高达70%，问天气、问翻译和问节日安排的内容大量出现，且每次都要消耗算力进行处理。这样的情况在分布式集群的各节点上被无数次放大，白白烧掉宝贵的能源和金钱。

译者 | 核子可乐

审校 | 重楼

是不是总感觉ChatGPT响应缓慢？

大家可能没有留意，大模型应用程序的提示词重复率高达70%，问天气、问翻译和问节日安排的内容大量出现，且每次都要消耗算力进行处理。这样的情况在分布式集群的各节点上被无数次放大，白白烧掉宝贵的能源和金钱。

为此，Anthropic日前详细介绍了如何利用提示词缓存技术将推理成本降低90%。其实不少开源大模型运行时（包括vLLM、TRT-LLM和SGLang等）都拥有自动前缀缓存（也称上下文缓存）功能，负责将相同前缀请求中的输入提示词自动缓存起来。

前缀缓存的工作原理

为了更好地理解前缀缓存，我们先来聊聊大模型推理的工作原理。

推理过程在宏观上分为两个步骤：

通过正向传递处理给定的输入标记序列，即预填充阶段。
解码阶段，从首个token连续生成至最后一个token，且当前token依赖于上一token。

大模型前缀缓存技术，有望将服务成本降低90%

图一

由于此过程的自回归属性（即新token依赖于前一token），因此有效的内存管理非常重要。多数大模型会采取为中间状态保留KV缓存的做法。与简单提示词或语义缓存的不同之处在于，其不会将全文输入和输出保存在数据库内，因为这样就只有完全匹配（或者几乎完全相同的查询）才能立即命中缓存并收到响应。

在预填充阶段，在大模型处理token时会计算“注意力”，即每个token与其他token的关系。计算过程会为每个token生成键-值矩阵。如果不经任何KV缓存，那么模型每次回顾此前token时都需要重新计算这些矩阵。KV缓存在设计上只支持一次生成，即只会在生成一条输出的过程中捕捉中间状态。

如果有两条具有相同前缀的请求，该怎么处理？

KV缓存的基本思路启发并衍生出了前缀缓存，确保在生成包含相同前缀的提示词时给出不同的响应。简单类比一下，假设已经计算过2 * 6的结果，那么对于2 * 6 * 3 * 5 这个新问题，可以直接复用之前的答案，避免在序列中重复计算。

这对应用程序有何帮助？

我们可以使用以下最佳实践来充分发挥前缀缓存的优势：

为提示词结构设计策略

可以将系统提示词、基础指令或者共享上下文等常量元素放在提示词的开头（图二），从而为多条查询建立可复用基础。其他动态或特殊内容则可放在末尾。

大模型前缀缓存技术，有望将服务成本降低90%

图二

对请求进行重新分组

将共享通用结构/前缀的请求捆绑在一起（图三）。例如，在处理以常见问候语或称呼开头的多条客户查询时，可以尝试将它们分为一组，尽可能提高计算过程的缓存和复用率。

大模型前缀缓存技术，有望将服务成本降低90%

图三

监控缓存利用率

另外，需要注意跟踪缓存利用率。

包括命中率与未命中率：

找出哪些前缀比其他一般前缀更重要
识别缓存未命中的模式

依托这些见解，就能优化提示词结构以获得最佳性能。

简单示例

以下示例为当多条查询共享相同的上下文时，前缀缓存如何优化大模型推理。我们使用一份简单的员工数据库表，并对其中内容进行不同查询。

Python
import time
from vllm import LLM, SamplingParams

# A small table containing employee information
LONG_PROMPT = """You are a helpful assistant that recognizes content in markdown tables. Here is the table:

| ID | Name          | Department | Salary  | Location    | Email                |
|----|---------------|------------|---------|-------------|---------------------|
| 1  | Alice Smith   | Engineering| 85000   | New York    | [email protected]   |
| 2  | Bob Johnson   | Marketing  | 65000   | Chicago     | [email protected]     |
| 3  | Carol White   | Sales      | 75000   | Boston      | [email protected]   |
| 4  | David Brown   | Engineering| 90000   | Seattle     | [email protected]   |
| 5  | Eve Wilson    | Marketing  | 70000   | Austin      | [email protected]     |
"""

def get_generation_time(llm, sampling_params, prompts):
    start_time = time.time()
    output = llm.generate(prompts, sampling_params=sampling_params)
    end_time = time.time()
    print(f"Output: {output[0].outputs[0].text}")
    print(f"Generation time: {end_time - start_time:.2f} seconds")

# Initialize LLM with prefix caching enabled
llm = LLM(
    model='lmsys/longchat-13b-16k',
    enable_prefix_caching=True
)

sampling_params = SamplingParams(temperature=0, max_tokens=50)

# First query - will compute and cache the table
get_generation_time(
    llm,
    sampling_params,
    LONG_PROMPT + "Question: What is Alice Smith's salary? Your answer: Alice Smith's salary is "
)

# Second query - will reuse the cached table computation
get_generation_time(
    llm,
    sampling_params,
    LONG_PROMPT + "Question: What is Eve Wilson's salary? Your answer: Eve Wilson's salary is "
)

运行以上代码，即可查询不同查询间的实际时间差异。第二条查询明显更快，因为其复用了缓存中的表上下文。具体时间将根据硬件和设置而有所浮动。

总结

前缀缓存是一项强大的大模型应用优化技术。实施上述最佳实践将帮助开发人员显著降低推理成本，且不致影响响应质量。参考示例也表明其操作难度极低，推荐大家马上在自己的应用程序中试一试。

原文标题：90% Cost Reduction With Prefix Caching for LLMs，作者：Mahak Shah

NLLB 与 ChatGPT 双向优化：探索翻译模型与语言模型在小语种应用的融合策略

本文探讨了 NLLB 翻译模型与 ChatGPT 在小语种应用中的双向优化策略。首先介绍了 NLLB-200 的背景、数据、分词器和模型，以及其与 LLM（Large Language Model）的异同和协同关系。接着列举了实战与应用的案例，包括使用 ChatGPT 生成的样本微调 NLLB-200 和使用 NLLB-200 的翻译结果作为 LLM 的 prompt 等。

2/13/2025 8:44:56 AM

Huang Minghui

零基础也能看懂的 ChatGPT 等大模型入门解析！

近两年，大语言模型LLM(Large Language Model)越来越受到各行各业的广泛应用及关注。对于非相关领域研发人员，虽然不需要深入掌握每一个细节，但了解其基本运作原理是必备的技术素养。本文笔者结合自己的理解，用通俗易懂的语言对复杂的概念进行了总结，与大家分享~一、什么是ChatGPT？

2/17/2025 1:00:00 PM

小喵学AI

WOT全球人工智能技术峰会是由51CTO开创的面向人工智能领域的高端技术会议品牌，它与另一大会品牌WOT全球技术创新大会一道，自2012年首次举办以来，历时十余年沉淀，累计吸引超过万名技术人员现场参与，同时吸引了数百家国内外知名科技企业和行业龙头、近千位技术领军人物深度合作。 ChatGPT引爆的热潮没有丝毫减缓之势，而DeepSeek又给这一热度添了一把火。伴随大模型的快速迭代、持续演进，生成式AI技术从理念到实践，从应用落地到产品百花齐放，创新速度之快令人瞩目，这也正是WOT全球人工智能技术峰会2025召开的目的和初衷。

4/14/2025 1:55:31 PM

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

大模型前缀缓存技术，有望将服务成本降低90%

前缀缓存的工作原理

如果有两条具有相同前缀的请求，该怎么处理？

这对应用程序有何帮助？

为提示词结构设计策略

对请求进行重新分组

监控缓存利用率

简单示例

总结

相关资讯

NLLB 与 ChatGPT 双向优化：探索翻译模型与语言模型在小语种应用的融合策略

零基础也能看懂的 ChatGPT 等大模型入门解析！

WOT大会7月北京启幕！12大AI主题诚征议题和嘉宾