外网夸爆DeepSeek开源周!今天一口气开源3个重磅!压轴戏期待拉满,R2、V4、被提名

出品 | 51CTO技术栈(微信号:blog51cto)好家伙! DeepSeek是真的OpenAI啊! 在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。

出品 | 51CTO技术栈(微信号:blog51cto)

好家伙!DeepSeek是真的OpenAI啊!

在第四天的开源日中,竟然一口气放出三个重磅的优化并行策略代码库,而且又是V3/R1模型中的干货:

DualPipe:一种优化的双向流水线并行算法,旨在优化V3/R1模型训练中的计算和通信重叠。稍微解释一下,通常在分布式训练中,计算和通信要有两次耗时,而DualPipe通过设计并行算法来处理这两者之间的重叠,可谓是训练界的时间管理大师!

https://github.com/deepseek-ai/DualPipe

EPLB (Expert-Parallel Load Balancer):这是一个用于V3/R1的专家并行负载均衡器。负载均衡是分布式训练非常重点的优化方向了,EPLB通过智能地分配计算任务,确保各个计算节点的“工作量”适中,避免某些节点成为瓶颈,进一步提高训练效率。

https://github.com/deepseek-ai/eplb

Computation-Communication Overlap Analyzer:这个工具帮助分析V3/R1模型中的计算和通信重叠部分。DeepSeek这波授人以渔,给模型开发者一个分析工具,让人直接看到在哪些操作上,计算和通信之间的重叠不够高,从而继续优化。

https://github.com/deepseek-ai/profile-data

有了这些优化技术,“卡脖子”好像真的不存在了!

就像评论区一位网友说的这样,DeepSeek改变了游戏规则!

“这是一场改变游戏规则的创新。DualPipe 和 EPLB 使大型语言模型的训练变得更快、更便宜、更可持续,同时保持顶级性能。DeepSeek 的策略交响乐可能会重新定义我们构建 AI 的方式,证明你不需要最大的乐队就能奏出最好的音乐。”

图片图片

讲完了DeepSeek今天开源的这些牛逼的技术,我们发现,评论区更期待的,还是明天最重磅的压轴戏!

1.DeepSeek重磅压轴戏将至,网友期待值拉满

昨天,关于R2提前发布的消息吊起了大家的胃口。

据媒体报道,幻方量化相关人士已经回复了“DeepSeek新一代AI模型R2提前发布”的消息,回应称:以官方消息为准。

虽然如此,却挡不住网友对R2的热情。一位网友更大胆猜测,第5天就有R2了,是真的吗?

图片图片

另一个网友也在线许愿,梦了票大的。除了R2以外,她还期待新一代基础多模态模型V4发布。最后,她还说希望DeepSeek进军文生视频领域,推一款能超过Veo2(Google DeepMind推出的一款先进的AI视频生成模型)的模型。

图片图片

一位网友说“真正的OpenAI,我希望明天会有大消息。无论怎样,你们太棒了!”

图片图片

更有网友用DeepSeek式的浪漫进行了夸夸。

称DeepSeek的开源善举是“鲸鱼分享他的海洋恩惠,引领所有的鱼儿在他的浪潮中”。

图片图片

2.DeepSeek API官宣非高峰超低价,鼓励错峰使用

最近两天,DeepSeek才重启了官方的API充值服务。

距离DeepSeek因服务器过爆停止了API充值过去了整整19天,相信许多想接入DeepSeek服务的人感到度日如年。

而昨天,DeepSeek又官宣了一波非高峰期的折扣!

感觉DeepSeek真的把自己的优化思维贯彻始终了,集中在闲时用更便宜的价格使用,怎么不算一种人类智能呢?

图片图片

基于北京时间的错峰优惠价,可以直接看下面的这张表:

图片图片

有人问道,我不太懂,这个价格是高还是低:

图片图片

热心网友1:低的要死了

图片图片

热心网友2:OpenAI的10%吧

图片图片

3.写在最后

DeepSeek开源周的操作让人眼前一亮!

比起OpenAI长达12天的挤牙膏,DeepSeek每次都是干货的前沿技术!

从小编的体感看,最近几天的交互,算力紧张的问题明显缓解。而这波API的闲时降价,则让更多人都能分享到其强大的技术优势。

随着开源周最后一天的临近,大家的期待值也在不断攀升,国内外的关注度达到了巅峰。未来越来越好,我们有理由相信,这只蓝鲸鱼能继续引领全球AI的潮流。

相关资讯

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

今日,国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies(优化并行策略),重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB,以及对计算-通信重叠机制的深度优化。 此次技术升级直击大规模语言模型训练的核心痛点,为超万卡级集群的高效运行提供了全新解决方案。 DualPipe:双向管道并行算法作为本次升级的核心技术之一,DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。

DeepSeek一口气开源3个项目,还有梁文锋亲自参与,昨晚API大降价

实现顶级 AI 性能的秘诀,就在这里了。 DeepSeek 的开源周已经进行到了第四天(前三天报道见文末「相关阅读」)。 今天这家公司一口气发布了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据。

“DeepSeek出了一个昏招!”

前两天和几个朋友聚会,有个朋友说:“DeepSeek这么厉害,为什么要开源? 美国人都知道了,那着高端显卡一练,一下子就把你超了,开源就是昏招,你看人家OpenAI就不开源。 ”我虽然当了很久的码农,也知道开源的巨大好处,但是他突然这么一说,我一时还不好反驳。