多轮对话推理速度晋升46%，开源方案打破LLM多轮对话的长度限制

在大型语言模型（LLM）的世界中，处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM，可以或许在不牺牲推理速度和生成成效的前提下，可实行多轮对话总共 400 万个 token 的流式输入，22.2 倍的推理速度晋升。但 StreamingLLM 使用原生 PyTorch 实行，对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。Colossal-AI 团队开源了 SwiftInfer，鉴于 TensorRT 实行了 StreamingLLM

在大型语言模型（LLM）的世界中，处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM，可以或许在不牺牲推理速度和生成成效的前提下，可实行多轮对话总共 400 万个 token 的流式输入，22.2 倍的推理速度晋升。

但 StreamingLLM 使用原生 PyTorch 实行，对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。

Colossal-AI 团队开源了 SwiftInfer，鉴于 TensorRT 实行了 StreamingLLM，可以进一步晋升大模型推理性能 46%，为多轮对话推理提供了高效可靠的落地方案。

开源地址：https://github.com/hpcaitech/SwiftInfer

StreamingLLM 简介

大语言模型可以或许记住的上下文长度，直接影响了 ChatGPT 等大模型应用与用户互动的质量。

如何让 LLM 在多轮对话场景下保持生成质量，对推理系统提出了更高的要求，因为 LLM 在预训练期间只能在有限的注意力窗口的限制下进行训练。

常见的 KV Cache 体制可以或许节约模型计较的时间，但是在多轮对话的情景下，key 和 value 的缓存会消耗大量的内存，无法在有限的显存下无限扩展上下文。同时，训练好的模型在不做二次微调的前提下也无法很好地泛化到比训练序列长度更长的文本，导致生成成效糟糕。

多轮对话推理速度晋升46%，开源方案打破LLM多轮对话的长度限制

图来源：https://arxiv.org/pdf/2309.17453.pdf

StreamingLLM 为了解决了这个问题，通过观察了注意力模块中 Softmax 的输出，发现了 attention sink 的现象。我们知道注意力体制会为每一个 token 分配一个注意力值，而文本最初的几个 token 总是会分配到很多无用的注意力。当我们使用鉴于滚动窗口的注意力体制时，一旦这几个 token 被踢出了窗口，模型的生成成效就会迅速崩溃。只要一直把这几个 token 保留在窗口内，模型就能稳定地生成出高质量的文本。

比起密集注意力（Dense Attention）、窗口注意力（Window Attention）以及带重计较的滚动窗口注意力 (Sliding Window w/ Re-computing)，StreamingLLM 鉴于 attention sink 的注意力体制无论是在计较复杂度还是生成成效上都表现优异。在不需要重新训练模型的前提下，StreamingLLM 可以或许直接兼容目前的主流大语言模型并改善推理性能。

SwiftInfer：鉴于 TensorRT 的 StreamingLLM 实行

为了将 StreamingLLM 这一技术更好的应用到落地场景，Colossal-AI 团队成功地将 StreamingLLM 方法与 TensorRT 推理优化结合，不仅继承了原始 StreamingLLM 的所有优点，而且还具有更高的运行效率。使用 TensorRT-LLM 的 API，我们还可以或许获得接近于 PyTorch API 的模型编写体验。

鉴于 TensorRT-LLM，我们重新实行了 KV Cache 体制以及带有位置偏移的注意力模块。如下图所示，假设我们的窗口大小为 10 个 token，随着生成的 token 增加（由黄色方块表示），我们在 KV 缓存中将中间的 token 踢出，与此同时，始终保持着文本开始的几个 token（由蓝色方块表示）。由于黄色方块的位置会发生变化，在计较注意力时，我们也需要重新注入位置信息。

多轮对话推理速度晋升46%，开源方案打破LLM多轮对话的长度限制

需要注意的是，StreamingLLM 不会直接提高模型能访问的上下文窗口，而是可以或许在支持流式超多轮对话的同时保证模型的生成成效。

大模型无限输入流推理加速 46%

原版本的 StreamingLLM 可以可靠地实行超过 400 万个 token 的流式输入，实行了比带重计较的滚动窗口注意力体制高出 22.2 倍的速度晋升。

Colossal-AI 团队发布的 SwiftInfer 可以进一步晋升推理性能，最多带来额外的最多 46% 的推理吞吐速度晋升，为大模型多轮对话推理提供低成本、低延迟、高吞吐的最佳实践。TensorRT-LLM 团队也在同期对 StreamingLLM 进行了类似支持。

多轮对话推理速度晋升46%，开源方案打破LLM多轮对话的长度限制

Colossal-AI 社区动态

Colossal-AI 目前已获得 GitHub 星数三万五千多颗，位列全球 TOP400，细分赛道排名世界第一，可通过高效多维并行、异构内存等，降低 AI 大模型训练 / 微调 / 推理的开发与应用成本，晋升模型任务表现，降低 GPU 需求。作为主流开源 AI 大模型系统社区，Colossal-AI 生态在多方面保持活跃更新。

Colossal-LLaMA-2-13B 开源

Colossal-LLaMA-2-13B 模型，仅用 25B token 数据和万元算力，成效远超鉴于 LLaMA-2 的其他中文汉化模型。即使与其他采用中文语料，可能花费上千万元成本，从头预训练的各大知名模型相比，Colossal-LLaMA-2 在同规模下仍表现抢眼。13B 版本通过构建更为完善的数据体系，在知识性内容掌握程度，自然语言处理任务理解程度，以及安全性，价值观等问题上，都有质的晋升。

多轮对话推理速度晋升46%，开源方案打破LLM多轮对话的长度限制

Colossal-AI 云平台

Colossal-AI 云平台在整合 Colossal-AI 系统优化和廉价算力的基础上，近期发布了 AI 云主机的功能，方便用户以近似裸机的方式进行 AI 大模型的开发和调试，并提供了多种使用方式，包括：Jupyter Notebook、ssh、服务本地端口映射和 grafana 监控，全方位的为用户提供便捷的开发体验。同时，还为用户预制了含有 ColossalAI 代码仓库和运行环境的 docker 镜像，用户无需环境和资源配置，便可一键运行 ColossalAI 代码仓库中的代码样例。

Colossal-AI 开源地址：https://github.com/hpcaitech/ColossalAI

参考链接：

https://hpc-ai.com/blog/Colossal-AI-SwiftInfer

{{userData.name}}已认证

多轮对话推理速度晋升46%，开源方案打破LLM多轮对话的长度限制

轻量级模型，重量级机能，TinyLlama、LiteLlama小模型火起来了

OPPO Find X7 Ultra 发布，定义移动影象的终极形态

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！