面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻

面壁智能联合创始人兼首席科学家刘知远在谈及 DeepSeek 近期引发的热潮时指出,“DeepSeek 最近发布 R1 模型的重要价值在于它能够完美复现 OpenAI o1 的深度推理能力,并且他通过开源的方式发布了相对详细的介绍,为行业作出了重要贡献。”

2 月 5 日下午消息,近日,面壁智能联合创始人兼首席科学家刘知远在谈及 DeepSeek 近期引发的热潮时指出,“DeepSeek 最近发布 R1 模型的重要价值在于它能够完美复现 OpenAI o1 的深度推理能力,并且他通过开源的方式发布了相对详细的介绍,为行业作出了重要贡献。”

刘知远指出,“因为 OpenAI o1 本身并没有提供关于其实现细节的任何信息,它相当于引爆了一个原子弹,但没有告诉大家秘方,而 DeepSeek 可能是全球首个能通过纯粹的强化学习技术复现 OpenAI o1 能力的团队,并且还把这种能力开源了。”

刘知远总结指出,DeepSeek R1 的整个训练流程有两个非常重要的亮点或价值:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化;这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。

面壁智能联创谈 DeepSeek 出圈:与 OpenAI o1 不开源有关,R1 模型创造了新的 ChatGPT 时刻

首先,DeepSeek R1 创造性地基于 DeepSeek V3 基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即 DeepSeek-R1-Zero,这具有非常重要的价值,因为在历史上几乎没有团队能够成功地将强化学习技术很好地应用于大规模模型上,并实现大规模训练。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling),这是它的第一个贡献。

其次,DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时,能够感受到其强大的深度思考能力的原因。

“这种泛化能力的实现分为两个阶段:首先,基于 DeepSeek V3 基座模型,通过增强推理过程的可读性,生成了带有深度推理能力的 SFT(Supervised Fine-Tuning)数据,这种数据结合了深度推理能力和传统通用 SFT 数据,用于微调大模型;随后,进一步通过强化学习训练,得到了具有强大泛化能力的强推理模型,即 DeepSeek R1。”刘知远表示。

在他看来,DeepSeek R1 能够取得如此全球性的成功呢,与 OpenAI 在发布 o1 之后选择不开源,同时将 o1 深度思考的过程隐藏起来,并且采用了非常高的收费方式有关。“这使得 o1 无法在全球范围内让尽可能多的人普惠地感受到深度思考所带来的震撼,而 DeepSeek R1 则像 2023 年初 OpenAI 的 ChatGPT 一样,让所有人真正感受到了这种震撼,这是 DeepSeek R1 出圈的非常重要的原因。”

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

开源大模型领域,又迎来一位强有力的竞争者。近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。项目地址::DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelDeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。与