DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

2025-02-25 10:09

DeepSeek今天正式启动为期五天的开源成果发布计划，首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合，为大模型推理提供了一套高性能、低延迟的解码方案。 FlashMLA是一款专门为Hopper GPU（比如H800 SXM5）优化的高效MLA解码内核，旨在加速大模型的计算任务，尤其是在NVIDIA高端显卡上提升性能。

DeepSeek今天正式启动为期五天的开源成果发布计划，首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合，为大模型推理提供了一套高性能、低延迟的解码方案。

FlashMLA是一款专门为Hopper GPU（比如H800 SXM5）优化的高效MLA解码内核，旨在加速大模型的计算任务，尤其是在NVIDIA高端显卡上提升性能。

通过FlashMLA，开发者能够在处理大规模语言模型时显著提高效率，降低延迟。与传统解码器相比，FlashMLA在处理可变长度序列时展现出更高的计算效率。

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

PPIO派欧云第一时间对FlashMLA在主流Hopper GPU（H20、H100、H200、H800）上的性能进行了评测。在深入了解评测结果之前，我们先来了解一下相关的背景知识。

科普时间：什么是Hopper GPU、解码内核和MLA？

•Hopper GPU：NVIDIA推出的新一代高性能GPU架构，专为AI和高性能计算（HPC）设计。它采用先进制程技术和创新架构，在复杂计算任务中提供卓越的性能和能效。主流的Hopper GPU包括H20、H100、H200和H800。

•解码内核：专门用于加速解码任务的硬件或软件模块。在AI推理中，解码内核能显著提升模型推理的速度和效率，尤其是在处理序列数据时。

•MLA：多头潜在注意力（Multi-head Latent Attention）的简称，MLA对KV缓存的需求更轻量化，使其在处理长序列时更容易扩展，同时性能也优于传统的多头注意力机制（Multi-Head Attention, MHA）。

FlashMLA性能实测

DeepSeek官方宣称，FlashMLA在H800 SXM5 GPU上可达到3000 GB/s的内存速度上限和580 TFLOPS的计算上限。在PPIO派欧云对FlashMLA的评测中，我们对不同参数配置下的性能进行了全面测试。为了更直观地展示结果，横坐标依次表示测试的参数配置，具体包括：

•批次大小（Batch Size）

•序列长度（Sequence Length）

•注意力头的数量（Number of Attention Heads）

评测结果如下：

•H20 GPU：内存速度上限为1024 GB/s，计算性能上限为126 TFLOPS。

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

•H100 GPU：内存速度上限为2906 GB/s，计算性能上限为526 TFLOPS。

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

•H200 GPU：内存速度上限为3887 GB/s，计算性能上限为512 TFLOPS。

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

•H800 GPU：内存速度上限为3000 GB/s，计算性能上限为580 TFLOPS。

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

本测试结果基于官方测试脚本。由于官方最优参数配置未知，数据可能未达到理论上限。

FlashMLA对主流推理框架的影响

FlashMLA的发布不仅吸引了开发者的目光，也引起了主流推理框架的重视。两大热门框架vLLM和SGLang都对FlashMLA做出了积极回应。vLLM团队预计很快会实现集成FlashMLA。技术上，FlashMLA基于PagedAttention实现，与vLLM的技术栈高度兼容，集成后有望进一步提升vLLM的推理性能。SGLang会继续用已经合并了的FlashInferMLA。根据他们的评测，FlashInferMLA的性能与FlashMLA基本相当。

Llama2推理RTX3090胜过4090，延迟吞吐量占优，但被A800远远甩开

这是为数不多深入比较使用消费级 GPU（RTX 3090、4090）和服务器显卡（A800）进行大模型预训练、微调和推理的论文。大型语言模型 (LLM) 在学界和业界都取得了巨大的进展。但训练和部署 LLM 非常昂贵，需要大量的计算资源和内存，因此研究人员开发了许多用于加速 LLM 预训练、微调和推理的开源框架和方法。然而，不同硬件和软件堆栈的运行时性能可能存在很大差异，这使得选择最佳配置变得困难。最近，一篇题为《Dissecting the Runtime Performance of the Training,

12/27/2023 3:04:00 PM

机器之心