DeepSeek R2要提前发布!这是有关R2的几个传闻:100%国产算力部署!能耗降低25%,多模态模型!

DeepSeek 今天有两个大新闻:一个是开源了自家用于助力V3/R1模型训练与推理的一个FP8通用矩阵乘法 (GEMM) 加速库,这一块相信不少业内人士会感兴趣,据悉性能高达1350 TFLOPS,进一步揭秘了为什么现在的DeepSeek可以吐字这么流畅,训练和计算成本为什么如此低廉。 不过更为让人震惊的,相信还是第二个:DeepSeek原定于要5月初发布的DeepSeek R2,现在正在争取提前甚至尽可能早的发布! 这一提前发布R2的消息,是路透社当地时间周二发布的,路透社跟三位知情人士了解到:DeepSeek原本计划在5月初发布R2,但现在希望尽早发布,但没有提供具体细节。

DeepSeek 今天有两个大新闻:一个是开源了自家用于助力V3/R1模型训练与推理的一个FP8通用矩阵乘法 (GEMM) 加速库,这一块相信不少业内人士会感兴趣,据悉性能高达1350+TFLOPS,进一步揭秘了为什么现在的DeepSeek可以吐字这么流畅,训练和计算成本为什么如此低廉。

不过更为让人震惊的,相信还是第二个:DeepSeek原定于要5月初发布的DeepSeek R2,现在正在争取提前甚至尽可能早的发布!

这一提前发布R2的消息,是路透社当地时间周二发布的,路透社跟三位知情人士了解到:DeepSeek原本计划在5月初发布R2,但现在希望尽早发布,但没有提供具体细节。

当然,DeepSeek一向低调,也从没有对外宣布过“R2发布的加速时间表”的任何细节。

有关R2的几个传闻

有关于R2,外界所知道的细节其实并不多,更多还是在公开的R1技术报告中的“R1不足”部分有提及:希望新模型能够产生更好的编码,并能够用英语以外的语言进行推理,实现多语言推理。

另外则是有一则财联社报道的技术细节(非DS官方证实):

(1) 性能突破:有消息称DeepSeek R2推理能力暴增,成本直降70%。在复杂逻辑推理任务中的准确率提升83%,多步骤问题处理效率提高5倍。首次实现完全国产化算力部署,基于910B芯片的R2推理速度达到每秒320tokens,能耗比优化62%。

(2)功能亮点:有观点认为R2模型在图像生成方面表现更为出色,能轻松驾驭细腻的肖像画和壮观的风景照等。还增加了语音识别和合成功能,可实现与AI的自然交互。

(3)技术定位:有说法称DeepSeek-R2是DeepSeek推出的首款多模态AI模型,能够同时处理文本、图像、音频等多种模态信息,在图像识别、语音识别、视频理解等方面表现出色,响应速度提升40%,能耗降低25%。

R2推出,将是AI行业的关键时刻

很明显,强推理模型是今年开年各大模型厂商的主要旋律,随着 Grok 3、Claude 3.7、Qwen 2.5 Max 的推出,以及 GPT 4.5 可能在未来几周内推出,有理由相信 DeepSeek 很可能会进行调整,并将 R2 的发布时间定得足够提前。

众所周知,DeepSeek在创建具有成本效益的人工智能模型方面在全球范围内取得了巨大成功,很明显也刺激到了各大巨头独角兽,纷纷加快了自己的脚步,打破在该领域被少数领先者的主导束缚。

印度技术服务提供商Zensar的首席运营官Vijayasimha Alilughatta表示:DeepSeek R2模型的推出可能是人工智能行业的关键时刻。

前员工眼中的DeepSeek和幻方量化

路透社采访了十几位DeepSeek以及其母公司幻方量化的前员工,他们视角之下,创始人梁文锋管理下的公司与中国大厂的风格形成了鲜明对比:

首先,团队主要由Z世代实习生和应届毕业生构成;

其次,采用扁平化管理模式,摒弃严格的层级制度;

再者,办公环境强调协作性,员工通常每日工作8小时,而不是996;

此外,创始人梁文锋常与年轻员工共同参与技术细节讨论甚至手搓代码。(一位 26 岁的前研究员表示:“梁给了我们控制权,把我们当作专家对待。他经常问问题,和我们一起学习。”)

最后,薪酬很可观。(据三位熟悉DeepSeek薪酬做法的人士透露,DeepSeek和幻方量化都以慷慨的薪酬而闻名。其中一位知情人士表示,在幻方,一位资深数据科学家每年赚150万元并不罕见,而竞争对手的年薪很少超过80万元。)

“DeepSeek 更像是一个研究实验室,而不是一个营利性企业。”“DeepSeek让我能够拥有管道的关键部分,这非常令人兴奋!”

另外多提一嘴,DeepSeek北京团队设立在中关村的融科大厦,据说也是因为便于跟清北高材生、专家交流的缘故。

DeepSeek R2,备受期待的答案

具路透社统计,目前全球已经有超200家企业接入了DeepSeek的模型。

更有行业观察分析指出,DeepSeek的成功凸显市场驱动创新的有效性,其技术突破了依赖全球供应链和先进技术的垄断和限制,印证了深度参与国际分工对自主创新的必要性。

当然,R2的提前发布,则会进一步推动全球AI行业打破寡头垄断格局。

另外,值得一提的是,当从2023年开始,百度、字节等巨头在两年前竞相构建面向C端的ChatBot应用时,梁文锋就在一次采访中表示,他特意避开在应用程序开发上投入巨资,而是专注于提高人工智能模型的质量。

宝剑锋从磨砺出,DeepSeek的爆火并非一日之功,背后所凸显的则是长达十数年在 AI 方面的积累。相信接下来的一周、数周,又将重现去年和前年各大公司争相秀技术肌肉的迭代节奏。

而大家所担心的“R1的领先到底会走多远”的问题,相信也会随着R2的发布迎来答案。

相关资讯

FP8 训练新范式:减少 40% 显存占用,训练速度提高 1.4 倍

近期DeepSeek V3 引爆国内外的社交媒体,他们在训练中成功应用了 FP8 精度,显著降低了 GPU 内存使用和计算开销。 这表明,FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。 近期,来自伯克利,英伟达,MIT 和清华的研究者们提出了显存高效的 FP8 训练方法:COAT(Compressing Optimizer states and Activation for Memory-Efficient FP8 Training),致力于通过 FP8 量化来压缩优化器状态和激活值,从而提高内存利用率和训练速度。

DeepSeek-R2曝5月前上线!第三弹DeepGEMM 300行代码暴击专家优化内核

第三天,DeepSeek发布了DeepGEMM。 这是一个支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库,可为V3/R1的训练和推理提供强大支持。 仅用300行代码,DeepGEMM开源库就能超越专家精心调优的矩阵计算内核,为AI训练和推理带来史诗级的性能提升!

用FP8训练大模型有多香?微软:比BF16快64%,省42%内存

低精度训练是大模型训练中扩展模型大小,节约训练成本的最关键技术之一。相比于当前的 16 位和 32 位浮点混合精度训练,使用 FP8 8 位浮点混合精度训练能带来 2 倍的速度提升,节省 50% - 75% 的显存和 50% - 75% 的通信成本,而且英伟达最新一代卡皇 H100 自带良好的 FP8 硬件支持。但目前业界大模型训练框架对 FP8 训练的支持还非常有限。最近,微软提出了一种用于训练 LLM 的 FP8 混合精度框架 FP8-LM,将 FP8 尽可能应用在大模型训练的计算、存储和通信中,使用 H100