2024年12月26日,DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3,每秒处理 60 个 token,比 V2 快 3 倍!MoE架构,6710 亿参数,激活 370 亿参数,训练基于 14.8 万亿高质量 token,完全开源,附送53页pdf技术论文
主要看点
1.DeepSeek-V3 采用了创新的知识蒸馏方法,将 DeepSeek R1 系列模型中的推理能力迁移到标准 LLM 中。该方法巧妙地融合了 R1 的验证和反思模式,显著提高了 DeepSeek-V3 的推理性能,同时又保留了对输出风格和长度的控制
2.首次在大规模模型上验证了 FP8 训练的可行性和有效性
3.通过协同优化,有效克服了跨节点 MoE 训练中的通信瓶颈,使得计算与通信几乎完全重叠
4.在 DeepSeek-V2 高效架构的基础上,DeepSeek-V3 引入无辅助损失的负载均衡策略和多标记预测(MTP)目标,不仅提升模型性能,还支持推理加速的预测解码
5.仅耗费了 266.4万 H800 GPU 小时,就完成了对 14.8 万亿 token 的预训练。预训练后的后续训练阶段仅需 10 万 GPU 小时,用极小(相对)的成本实现了强悍的性能,这一点值得特别说明一下:
最令人震惊的是DeepSeek-V3 如此先进的模型的训练成本,如表中所示,通过对算法、框架和硬件的优化共同设计实现。在预训练阶段,训练DeepSeek-V3每万亿个令牌仅需180K H800 GPU小时,即在集群上使用2048个H800 GPU需要3.7天。因此,预训练阶段在不到两个月的时间内完成,成本为2664K GPU小时。加上上下文长度扩展所需的119K GPU小时和训练后所需的5K GPU小时,DeepSeek-V3完整训练的总成本仅为2.788百万GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,总训练成本仅为557.6万美元
这简直太不可思议了,想一下o1,Claude,Gemini,Ilama 3 405B 动辄数亿美金的训练成本,也就是说DeepSeek仅仅用不到600万美金就实现了SOTA,比Claude、Llama 405b 等的计算量少 10 倍,使用 2048 台 H800,已经有很多外国网友在喊了,让DeepSeek团队在马斯克的超级计算机训练,我们可能已经获得AGI了
请注意,上述成本仅包括DeepSeek-V3的官方训练,不包括与架构、算法或数据的前期研究和消融实验相关的成本
现在DeepSeek-V3 的API价格(看起来明年2月8号之后要涨价)
表格中展示了优惠前与优惠后的价格。即日起至北京时间 2025-02-08 24:00,所有用户均可享受 DeepSeek-V3 API 的价格优惠。 在此之后,模型价格将恢复至原价
综合评估表明,DeepSeek-V3 的性能直接干到开源第一,并且达到了与领先的闭源模型相当的性能
模型下载与本地部署:多种选择
DeepSeek-V3 提供了多种下载方式,用户可从 Hugging Face 下载该模型。总大小为 685GB,包括 6710 亿主模型权重和 140 亿多令牌预测 (MTP) 模块权重
为了方便用户本地运行,DeepSeek AI 还与开源社区和硬件厂商合作,提供了多种部署方案:
华为昇腾 NPU: 支持在华为昇腾设备上运行
DeepSeek-Infer Demo: 提供了轻量级的 FP8 和 BF16 推理演示
SGLang: 完全支持 DeepSeek-V3 的 BF16 和 FP8 模式,在 NVIDIA 和 AMD GPU 上均可运行
LMDeploy: 支持 DeepSeek-V3 的高性能推理和服务,无缝集成到 PyTorch 工作流中
TensorRT-LLM: 目前支持 BF16 推理和 INT4/8 量化,FP8 支持即将推出
AMD GPU: 通过 SGLang 支持在 AMD GPU 上运行,支持 FP8 和 BF16 精度
DeepSeek-V3技术报告解读
为了直观展示53页pdf报告的内容,大家先直接看脑图,随后我将报告一些重点内容做一个梳理
报告提出了DeepSeek-V3模型,用于解决大规模语言模型的高效推理和训练问题。简单来说,V3主要的技术如下
1.多头潜在注意力(MLA):MLA架构通过低秩联合压缩注意力键和值来减少推理过程中的KV缓存,从而提高推理效率
2.DeepSeekMoE架构:DeepSeekMoE通过细粒度的专家和共享专家来实现更高效的训练
3.无辅助损失的负载均衡策略:为了避免辅助损失对模型性能的负面影响,提出了一种无辅助损失的负载均衡策略,通过动态调整偏置项来保持专家负载的平衡
4.多令牌预测(MTP)目标:通过预测多个未来令牌来增强模型的预测能力,并可用于推理加速的投机解码
实验设计
数据收集:预训练数据集包含14.8万亿高质量和多样化的令牌,涵盖了数学、编程和多种语言
超参数设置:模型设置为61层Transformer结构,隐藏维度为7168。MLA的头数为128,每头维度为128。KV压缩维度为512,查询压缩维度为1536
训练过程:采用FP8混合精度训练框架,设计了DualPipe算法以实现高效的管道并行性。训练过程中使用了序列并行性和数据并行性来优化计算和通信效率
关键问题
问题1:DeepSeek-V3在训练过程中如何实现高效的流水线并行性?
DeepSeek-V3采用了DualPipe算法来实现高效的流水线并行性。DualPipe算法通过将前向和后向计算阶段重叠,减少了管道气泡的数量,并隐藏了大部分通信开销。具体来说,DualPipe将每个块分为四个部分:注意力、全节点广播、MLP和全节点合并。通过重新排列这些组件并手动调整GPU SMs的分配,确保了计算和通信的重叠。这种方法不仅加速了模型训练,还减少了管道气泡和峰值激活内存的使用
问题2:DeepSeek-V3的无辅助损失负载均衡策略是如何工作的?
DeepSeek-V3的无辅助损失负载均衡策略通过引入偏置项来动态调整专家负载,从而避免辅助损失对模型性能的负面影响。具体来说,每个专家的负载通过sigmoid函数计算的亲和度分数来确定,并通过归一化处理生成门控值。为了实现负载均衡,引入了偏置项 ,并将其加到亲和度分数上,以确定每个令牌的路由选择。通过在训练过程中动态调整偏置项,DeepSeek-V3能够在训练过程中保持专家负载的平衡,从而提高模型性能
问题3:DeepSeek-V3在多令牌预测(MTP)方面有哪些具体的实现细节?
DeepSeek-V3的多令牌预测(MTP)通过在每个预测深度预测多个未来令牌来增强模型的预测能力。具体实现上,使用多个顺序模块来预测额外的令牌,并保持完整的因果链。每个MTP模块由一个共享嵌入层、一个共享输出头、一个Transformer块和一个投影矩阵组成。对于每个输入令牌,首先将其与下一个令牌的嵌入进行线性组合,然后通过Transformer块进行处理,最后通过输出头计算预测概率。通过这种多令牌预测方法,DeepSeek-V3能够提高数据的利用效率,并增强模型的预测能力