MLA

DeepSeek的MLA架构：大模型迁移的新突破

在人工智能领域，DeepSeek-R1的推出引发了广泛关注，这一创新代表了 AI 产业的颠覆性进展。其多头潜在注意力网络（Multi-head Latent Attention，MLA）架构，借助低秩压缩技术显著降低了训练与推理的成本，甚至仅为同等性能大模型的十分之一。这一成果由复旦大学 NLP 实验室的博士后纪焘及其团队共同完成，目标是让任意预训练的大语言模型能够快速迁移到 MLA 架构，而无需重新从头开始训练。

3/7/2025 10:52:00 AM

AI在线

DeepSeek开源周“第一刀”砍向算力！重磅开源FlashMLA，挑战H800算力极限，网友直呼：极致的工程设计！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）上周五，DeepSeek刚刚预告了重磅开源周！周一一早，DeepSeek就履行承诺，开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA！图片根据DeepSeek介绍，FlashMLA内核针对变长序列进行了优化，是已投入生产的核心技术。

2/24/2025 12:52:46 PM

伊风

“源神”DeepSeek！突破H800性能上限，FlashMLA重磅开源，算力成本还能降

DeepSeek开源周第一天，降本大法公开——FlashMLA，直接突破H800计算上限。网友：这怎么可能？？

2/24/2025 11:31:33 AM

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek

七彩虹科技正式宣布，其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。此次更新的 “虹光 AI” 助手，基于当前热门的 Transformer 架构，并采用了 MLA 与 Deep Seek MoE 技术，显著降低了内存占用，减少了缓存需求，从而提升了整体的推理效率。

2/8/2025 5:57:00 PM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型