FlashMLA - AI在线

DeepSeek开源FlashMLA：Hopper GPU解码新标杆，测评大揭秘！

DeepSeek今天正式启动为期五天的开源成果发布计划，首个亮相的项目是FlashMLA。这一开源项目将先进的MLA算法与GPU优化技术相结合，为大模型推理提供了一套高性能、低延迟的解码方案。 FlashMLA是一款专门为Hopper GPU（比如H800 SXM5）优化的高效MLA解码内核，旨在加速大模型的计算任务，尤其是在NVIDIA高端显卡上提升性能。

DeepSeek FlashMLA：大模型推理的“涡轮增压器”

FlashMLA（Flash Multi-head Latent Attention）是DeepSeek针对英伟达Hopper架构GPU（如H800/H100）设计的高效解码内核，其核心技术围绕多头潜在注意力（MLA）机制展开，通过软硬件协同优化实现性能突破

DeepSeek开源周“第一刀”砍向算力！重磅开源FlashMLA，挑战H800算力极限，网友直呼：极致的工程设计！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）上周五，DeepSeek刚刚预告了重磅开源周！周一一早，DeepSeek就履行承诺，开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA！图片根据DeepSeek介绍，FlashMLA内核针对变长序列进行了优化，是已投入生产的核心技术。

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

就在刚刚，DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，特别针对变长序列进行了优化，目前已正式投产使用。经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。第一个项目，果然与推理加速有关。北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。

DeepSeek 开源周首日：发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA，这是一款专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核。该技术特别针对变长序列场景进行优化，可显著提升大模型推理性能。 FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。