DeepSeek开源周第六天:极致推理优化系统,提高GPU计算效率

在人工智能(AI)技术快速发展的今天,DeepSeek 团队推出了其全新的 DeepSeek-V3/R1推理系统。 这一系统旨在通过更高的吞吐量和更低的延迟,推动 AGI(通用人工智能)的高效发展。 为了实现这一目标,DeepSeek 采用了跨节点专家并行(Expert Parallelism,EP)技术,显著提高了 GPU 的计算效率,并在降低延迟的同时,扩展了批处理规模。

在人工智能(AI)技术快速发展的今天,DeepSeek 团队推出了其全新的 DeepSeek-V3/R1推理系统。这一系统旨在通过更高的吞吐量和更低的延迟,推动 AGI(通用人工智能)的高效发展。为了实现这一目标,DeepSeek 采用了跨节点专家并行(Expert Parallelism,EP)技术,显著提高了 GPU 的计算效率,并在降低延迟的同时,扩展了批处理规模。

QQ_1740966278224.png

DeepSeek-V3/R1的核心在于其极高的稀疏性,模型中每层仅激活256个专家中的8个,因此需要非常大的批处理大小,以确保每个专家都有足够的处理能力。该系统的架构采用了预填充解码解聚(prefill-decode disaggregation)的方法,在预填充和解码阶段采用不同程度的并行化策略。

在预填充阶段,系统通过双批次重叠策略来隐藏通信成本,这意味着在处理一批请求时,另一批的通信成本可以被计算过程所掩盖,从而提升了整体吞吐量。而在解码阶段,针对不同执行阶段的时间不平衡问题,DeepSeek 采用了五级流水线的方式,实现了无缝的通信与计算重叠。

为了应对大规模并行性所带来的负载不均问题,DeepSeek 团队设立了多个负载均衡器。这些负载均衡器致力于在所有 GPU 之间平衡计算和通信负载,避免某一单一 GPU 因超负荷运算而成为性能瓶颈,确保资源的高效利用。

QQ_1740966256161.png

在服务性能方面,DeepSeek-V3/R1推理服务在 H800GPU 上运行,使用的矩阵乘法和传输格式与训练过程保持一致。根据最新的统计数据,系统在过去24小时内处理了6080亿个输入令牌,最高节点占用率达278,日均占用率为226.75,整体服务表现良好。

QQ_1740966237834.png

DeepSeek-V3/R1推理系统通过高效的架构设计和智能的负载管理,不仅提升了人工智能模型的推理性能,也为未来的 AGI 研究与应用提供了强有力的基础设施支持。

项目:https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

划重点:

🌟 DeepSeek-V3/R1推理系统通过跨节点专家并行技术,实现更高的吞吐量和更低的延迟。  

📊 采用双批次重叠策略与五级流水线,提升计算效率并优化通信过程。  

🔄 设立多种负载均衡器,确保 GPU 间的资源高效利用,避免性能瓶颈。

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

DeepSeek一天能赚多少钱?官方突然揭秘V3/R1推理系统,成本全透明

DeepSeek 官方:如果所有 tokens 全部按照 DeepSeek R1 的定价计算,理论上一天的总收入为 $562,027,成本利润率 545%。 但实际上没有这么多收入,因为 V3 的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣。 太突然了!

腾讯云上线DeepSeek全系API接口并打通联网搜索

腾讯云宣布完成对深度求索(DeepSeek)大模型的深度整合——正式上线DeepSeek-R1和V3原版模型的API接口,并创新性接入自研大模型知识引擎,同步开放联网搜索能力。 凭借腾讯云在推理并发和生成速率等方面的优化,用户可以获得更加稳定、安全、低门槛的使用体验。 开发者只需在云上简单三步即可实现API接口调用,并通过大模型知识引擎提供的文档解析、拆分、embedding、多轮改写等能力,灵活构建专属的AI服务。