多层注意力
DeepSeek 开源周首日:发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s
DeepSeek 开源周首日正式开源其最新技术成果FlashMLA,这是一款专为英伟达Hopper架构GPU打造的高效多层注意力(Multi-Layer Attention)解码内核。 该技术特别针对变长序列场景进行优化,可显著提升大模型推理性能。 FlashMLA的核心技术特性包括对BF16精度的全面支持,以及采用块大小为64的页式键值缓存(Paged KV Cache)系统,实现更精确的内存管理。
2/24/2025 10:18:00 AM
AI在线
- 1
资讯热榜
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
数据
机器人
DeepSeek
谷歌
AI
Midjourney
智能
大模型
学习
GPT
用户
微软
AI创作
开源
图像
Meta
技术
论文
Stable Diffusion
模型
马斯克
算法
生成式
蛋白质
芯片
Gemini
计算
神经网络
代码
腾讯
研究
AI设计
Sora
3D
GPU
英伟达
开发者
机器学习
场景
伟达
预测
华为
模态
Transformer
AI for Science
文本
驾驶
深度学习
百度
AI视频
神器推荐
苹果
算力
搜索
LLaMA
Anthropic
视频生成
干货合集
Copilot
科技
2024
安全
应用
xAI
特斯拉
具身智能
AI应用场景
写作
机器
字节跳动
视觉
人形机器人
AGI
DeepMind
架构