DeepSeek是新源神！推理模型o1性能1/50价格，微调/数据/商用全免费，蒸馏1.5B小模型可比GPT-4o

作者：

2025-01-21 10:10

DeepSeek新发布远超预期，Reddit/𝕏狂暴刷屏中。这次大事共有3件：开源DeepSeek-R1推理大模型，与o1性能相近。开源DeepSeek-R1-Zero，预训练模型直接RL，不走SFT，堪称语言模型的AlphaZero。

DeepSeek新发布远超预期，Reddit/𝕏狂暴刷屏中。

这次大事共有3件：

开源DeepSeek-R1推理大模型，与o1性能相近。
开源DeepSeek-R1-Zero，预训练模型直接RL，不走SFT，堪称语言模型的AlphaZero。。
开源用R1数据蒸馏的Qwen、Llama系列小模型，在某些任务上直接超过GPT-4o。

图片

同时开放官方API，输入token（命中缓存）价格只有OpenAI o1的1/50，未命中缓存以及输出token价格约1/27。

图片

论文中被反复热议的小细节就更多了：

R1-Zero模型在思考过程中涌现了“顿悟时刻”（aha moment），并自己学会为问题分配更多思考时间。

图片

网友们开始推演接下来的剧情，如果顿悟的力量能被稳定利用……那就不知道会通向何处了。

图片

再有，目前社区猜测OpenAI的o1-pro/o3可能使用了tree-of-agents方法，许多个o1的分身各自回答问题，再通过某种方式选出最优答案。

如果将DeepSeek-R1与Search-o1和Tree-of-Agents（大约50个智能体）结合起来，可以很小的成本获得与o3类似的性能，最终可能便宜数百倍。

图片

这次DeepSeek总共开源6个在R1数据上蒸馏的小模型，其中蒸馏版Qwen-1.5B都能在部分任务上超过GPT-4o。

图片

DeepSeek还特别更新了开源许可证，现在是MIT Lisence。

R1是开源的，R1数据想跑多少有多少，API可以用于蒸馏和微调，商用是免费的。

图片

新的源神出现了！

DeepSeek新发布

OpenAI的o1系列模型率先引入了推理时扩展（inference-time scaling）的概念，通过增加思维链（Chain-of-Thought）推理过程的长度，在数学、编程、科学推理等任务上取得了显著的性能提升。

先前的研究探索了基于过程的奖励模型、强化学习、蒙特卡洛树搜索和束搜索等方法，但尚未有方法在通用推理性能上达到o1系列模型的水平。

DeepSeek-R1-Zero

DeepSeek团队迈出了利用纯强化学习提升语言模型推理能力的第一步。

他们的目标是探索大模型在没有任何监督数据的情况下，通过纯强化学习过程进行自我进化，从而获得推理能力。

具体而言，他们使用DeepSeek-V3-Base作为基础模型，并采用GRPO（Group Relative Policy Optimization）作为强化学习框架来提高模型在推理任务上的表现。

在训练过程中，DeepSeek-R1-Zero自然而然地涌现出许多强大而有趣的推理行为。

经过数千步的强化学习，DeepSeek-R1-Zero在推理基准测试中表现出色。

例如，它在AIME 2024上的pass@1得分从15.6%提高到71.0%，并且通过多数投票，得分进一步提高到86.7%，与OpenAI-o1-0912的表现相当。

图片

DeepSeek-R1

然而，DeepSeek-R1-Zero也面临着可读性差、语言混杂等挑战。

为了解决这些问题并进一步提高推理性能，团队提出了DeepSeek-R1，它结合了少量冷启动数据和多阶段训练流程。

具体而言，他们首先收集数千条冷启动数据来微调DeepSeek-V3-Base模型。随后，他们进行了类似DeepSeek-R1-Zero的面向推理的强化学习。

当接近强化学习过程的收敛时，他们通过在强化学习检查点上进行拒绝采样，结合来自DeepSeek-V3在写作、事实型问答、自我认知等领域的监督数据，创建新的SFT数据，然后重新训练DeepSeek-V3-Base模型。

使用新数据进行微调后，该检查点还经历了一个额外的强化学习过程，考虑到所有场景下的提示。

经过这些步骤，他们获得了一个称为DeepSeek-R1的检查点，其性能与OpenAI-o1-1217不相上下。

图片

R1数据蒸馏模型

DeepSeek团队进一步探索了从DeepSeek-R1蒸馏到更小的密集模型。使用Qwen2.5-32B作为基础模型，直接从DeepSeek-R1蒸馏的效果优于在其上应用强化学习。

这表明，更大的基础模型发现的推理模式对于提高推理能力至关重要。

他们开源了蒸馏的Qwen和Llama系列模型。值得注意的是，他们的蒸馏14B模型在推理基准测试中大幅超过了当前最先进的开源QwQ-32B-Preview，而蒸馏的32B和70B模型在密集模型中树立了新的推理任务基准。

图片

最后，团队还把在实验过程中很多失败的尝试分享出来，防止后人踩坑。

在过程奖励模型、蒙特卡洛树搜索算法上，DeepSeek都没能获得进展。

不过他们也强调，只是他们失败了，并不意味着这些方法无法开发出有效的推理模型。

图片

未来他们计划在以下方向继续投入研究：提升通用能力、解决语言混杂问题、优化提示词敏感问题，以及改进软件工程任务的性能。

图片

One More Thing

还有英语母语者挑起了论文中的遣词造句，认为很可能是大模型帮团队撰写的论文。

图片

同时很多人注意到，在DeepSeek的许多论文里，“DeepSeek-AI”都出现在作者列表的第一位。

图片

论文地址：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

参考链接：[1]https://x.com/deepseek_ai/status/1881318130334814301[2]https://www.reddit.com/r/singularity/comments/1i5yvx5/deepseek_discovered_their_new_model_having_an_aha/

DeepSeek 全面指南：95% 的人都不知道的九个技巧

大家好，我是汤师爷~最近，DeepSeek这款AI工具爆火国内外。虽然许多人都开始尝试使用它，但有人吐槽说，没想象中那么牛。其实问题不在工具，很多人的使用姿势就搞错了，用大炮打蚊子，白白浪费DeepSeek的强大功能。

2/4/2025 5:33:00 PM

架构师汤师爷

山姆·奥特曼揭秘：Deepseek R1性价比之选！

在当今的人工智能领域，大模型之间的竞争日益激烈。 Deepseek 推出的 R1 模型引起了广泛关注。山姆·奥特曼评价道：“Deepseek 的 R1 是一个令人印象深刻的模型，尤其是在他们能够以这个价格提供的东西方面。

2/8/2025 11:31:17 AM

AGI

中文比R1丝滑、玩宝可梦还贼溜？全球首个混合推理模型Claude 3.7 Sonnet太惊艳，网友直呼“孤独求败”

当地时间 2 月 25 日，Anthropic 正式发布了 Claude 3.7 Sonnet，“这是迄今为止我们最智能的模型，也是市场上首个混合推理模型。 ”Anthropic 官方表示。简单来说，Claude 3.7 Sonnet 既能提供近乎即时的响应（标准模式，standard），也可以向用户直观展示其长时间的逐步思考过程（扩展思考模式，extended thinking）。

2/26/2025 10:10:12 AM

架构师秋天

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态驾驶文本人形机器人 xAI 搜索大语言模型 Copilot Claude 字节跳动具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

DeepSeek是新源神！推理模型o1性能1/50价格，微调/数据/商用全免费，蒸馏1.5B小模型可比GPT-4o

DeepSeek新发布

DeepSeek-R1-Zero

DeepSeek-R1

R1数据蒸馏模型

One More Thing

相关资讯

DeepSeek 全面指南：95% 的人都不知道的九个技巧

山姆·奥特曼揭秘：Deepseek R1性价比之选！

中文比R1丝滑、玩宝可梦还贼溜？全球首个混合推理模型Claude 3.7 Sonnet太惊艳，网友直呼“孤独求败”