DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

作者：量子位

2025-02-27 01:10

按时整活！ DeepSeek开源周第四天，直接痛快「1日3连发」，且全都围绕一个主题：优化并行策略。 DualPipe：一种创新的双向流水线并行算法，能够完全重叠前向和后向计算-通信阶段，并减少“流水线气泡”。

按时整活！

DeepSeek开源周第四天，直接痛快「1日3连发」，且全都围绕一个主题：

优化并行策略。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

DualPipe：一种创新的双向流水线并行算法，能够完全重叠前向和后向计算-通信阶段，并减少“流水线气泡”。它通过对称的微批次调度，优化了并行计算效率。
Expert Parallelism Load Balancer (EPLB)：用于MoE的负载均衡算法，通过复制高负载专家并智能地分配专家到不同GPU上，确保计算资源的均衡利用。它包含两种政策：层次化负载均衡和全局负载均衡。
Profiling Data：训练和推理框架的性能分析数据，展示了通信-计算重叠策略和底层实现细节。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

这三者中，DualPipe从时间上优化了计算与通信的调度，EPLB从空间上平衡利用计算资源，Profiling Data则提供了前两者在实际应用中效果的可视化证据。

且DualPipe的开发团队中包括梁文锋本人。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

发布后10分钟不到，3者在GitHub上的星标已经破300了，且其中DualPipe的星标飙升最快。

而DeepSeek一发推，网友的留言也排山倒海一般扑面而来，几乎都是不吝溢美之词：

好活！令人兴奋！优化策略可以重新定义行业的性能。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

Day 4，直接1日3连发

DualPipe

DualPipe是在DeepSeek-V3中首次出现双向流水线并行算法，现在代码完全开源。

它实现了前向与后向计算-通信阶段的完全重叠，还减少了流水线气泡（即某些设备在某些时刻空闲等待）。

DualPipe采用了双向微批次调度策略，其核心特点是：

对称设计：反向方向的微批次与前向方向对称排列，形成一种几何平衡的调度结构
计算-通信重叠：两个共享黑色边框的单元格表示相互重叠的计算和通信过程
双向并行：同时在两个方向上推进微批次，最大化硬件利用率

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

传统流水线并行方法如1F1B（one-forward-one-backward）在处理多GPU场景时会产生大量气泡。

DualPipe通过重新安排微批次执行顺序，和对称结构缓解这个问题。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

EPLB

EPLB适用于V3/R1的专家并行负载均衡器，解决MoE模型在分布式训练和推理中的负载不平衡问题。

在MoE架构中，不同的输入会激活不同的专家，可能导致某些专家过载，进一步造成不同GPU的利用率不平衡。

EPLB采用“redundant experts”（冗余专家）策略：

识别高负载专家→复制多个副本分配到不同GPU→在推理时动态分配输入到负载较轻的专家副本。

并带有两种普通的策略：

分层负载平衡，专家并行较小的预填充阶段使用。
全局负载平衡，在专家并行规模较大的解码阶段采用。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

V3/R1中的计算通信重叠分析数据

开源第四弹的part 3，DeepSeek公开分享了来自训练和推理框架的分析数据，以帮助社区更好地了解通信计算重叠策略和低级实现细节。

GitHub上注明，分析数据是使用PyTorch Profiler捕获的。

下载后，开发者可以通过导航到Chrome浏览器中的chrome://tracing（或Edge浏览器中的edge://tracing）将它进行可视化。

Attention please——DeepSeek模拟了一个绝对平衡的MoE路由策略进行分析。

首先，训练阶段。

训练配置文件数据演示了DeepSeek在DualPipe中，对一对单独的向前和向后数据块的重叠策略。

每个数据块包含4个MoE 层。

并行配置与DeepSeek-V3预训练设置一致EP64、TP1具有4K序列长度。

为简单起见，在profilng期间不包括PP通信。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

其次，推理阶段。

1）预填充。

对于预填充，配置文件使用EP32和TP1（与DeepSeek V3/R1的实际在线部署一致），提示长度设置为4K，每个GPU的批量大小为16Ktokens。

在预填充阶段，DeepSeek利用两个微批次来重叠计算和多对多通信，同时确保注意力计算负载在两个微批次之间平衡

——这意味着相同的提示可以在它们之间分配。

2）解码。

（注：相关数据尚未准备就绪，将于稍后发布）

解码方面，该配置文件采用了EP128、TP1和4K的提示长度（与实际在线部署配置非常匹配），每个GPU的批量大小为128个请求。

与预填充类似，解码还利用两个微批处理进行重叠计算和多对多通信。

但与预填充不同的是，解码期间的all-to-all通信不会占用GPU SM：

发出RDMA消息后，所有GPU SM都会被释放，系统在计算完成后等待all-to-all通信完成。

有关all-to-all实现的更多信息，请参考开源周第二弹DeepEP。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

One More Thing

“大放异彩！”

对于第四弹的开源内容，网友是这么感慨的。

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

目前看来，DeepSeek开源周的前4天，都挺令追更群众们满意。

尤其是这次开源周全部瞄准大模型的Infra层。

追更看客们表示：

更好的团队合作不仅是团队管理优化的一部分，更是实现顶级AI性能的秘诀。DeepSeek正在创建新的标准，大规模训练的未来就在咱们眼前！

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

好了，DeepSeek开源周，明天就是最后一天了，不知道会有什么压轴登场？

淘宝卖DeepSeek安装包一月赚数十万？？？我们免费教你本地部署DeepSeek-R1

当看到这条消息时，机器之心编辑部陷入了集体沉默。作为一个免费开源的模型，DeepSeek 竟能让倒卖商如此大赚特赚，也着实让人震惊。而这也从侧面佐证了 DeepSeek 模型引发的本地部署热潮是多么汹涌。

2/12/2025 1:23:47 PM

机器之心

DeepSeek R1范式复现笔记

作者 | yulei自DeepSeek R1技术报告🐳开放以来，开源社区涌现了多种「复现」工作。本R1复现笔记旨在以多个开源项目的再复现以及交叉验证为目标，探索R1/R1-zero中强化学习步骤带来的模型效果提升，并尝试展望R1技术在未来模型训练与业务落地上的前景。一、R1 开源项目梳理目前主流的 R1 系列复现工作如表 1 所示。

2/20/2025 3:32:28 PM

腾讯技术工程

DeepSeek开源三箭齐发，梁文峰亲自上阵！双向并行LLM训练飙升

开源周第4天，DeepSeek放出的是——优化并行策略，一共三个项目。 DualPipe：一种用于V3/R1模型训练中实现计算与通信重叠的双向流水线并行算法EPLB：一个针对V3/R1的专家并行负载均衡工具深入分析V3/R1模型中的计算与通信重叠机制值得一提的是，DualPipe是由三个人——Jiashi Li、Chengqi Deng和梁文峰共同研发。有网友对此表示，这是一个颠覆性的突破。

2/27/2025 12:06:45 PM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

顶部

DeepSeek今日连开3源！针对优化的并行策略，梁文锋本人参与开发

Day 4，直接1日3连发

DualPipe

EPLB

V3/R1中的计算通信重叠分析数据

One More Thing

相关资讯

淘宝卖DeepSeek安装包一月赚数十万？？？我们免费教你本地部署DeepSeek-R1

DeepSeek R1范式复现笔记

DeepSeek开源三箭齐发，梁文峰亲自上阵！双向并行LLM训练飙升