从理论到实践：学会如何商用 DeepSeek，收藏这一篇就够了

2025-02-24 12:20

Hi，大家好，我叫秋水，当前专注于 AI Agent 和 AI 工作流自动化。近期 DeepSeek，全球闻名，大家纷纷在讨论，我看过很多文章和视频，很多说的有点夸张，23 年 AI 刚来的那些内容，又重新说了一遍，只是把 AI 两个字母换成了 DeepSeek。在我看来，DeepSeek 出圈的主要原因是能力强、价格低、开源、可以本地部署，这个好处在于企业在 AI 方面的应用会加速落地，我们国内的用户不需要那么麻烦的出海使用 ChatGPT 了。

Hi，大家好，我叫秋水，当前专注于 AI Agent 和 AI 工作流自动化。

近期 DeepSeek，全球闻名，大家纷纷在讨论，我看过很多文章和视频，很多说的有点夸张，23 年 AI 刚来的那些内容，又重新说了一遍，只是把 AI 两个字母换成了 DeepSeek。

在我看来，DeepSeek 出圈的主要原因是能力强、价格低、开源、可以本地部署，这个好处在于企业在 AI 方面的应用会加速落地，我们国内的用户不需要那么麻烦的出海使用 ChatGPT 了。

今天这期内容，我会结合大模型的一些底层原理，从商用的视角从理论到实践给大家介绍一下 DeepSeek，内容包含如下几个部分。

第一部分，介绍大模型的运行原理，例如什么是大模型的推理能力？它与通用大模型有何区别？通用大模型如何增强推理能力？具有推理能力的大模型是如何工作的？

第二部分，介绍大模型的上下文长度的概念，这也是是影响大模型输出质量很重要的一个方面，必看。

第三部分，介绍 DeepSeek R1 的提示词的使用技巧，例如 DeepSeek R1 万能提示模版，通过例子可以看到它与通用大模型 DeepSeek V3 的区别，商用场景下的提示词示例，与 R1 交互影响输出质量的因素有哪些？

第四部分，抛砖引玉，介绍 DeepSeek 的商用场景都有哪些？其中开始会介绍一下 DeepSeek R1 带给我们的惊喜有哪些？最近经常听到的强化学习和蒸馏是什么意思？它带给我们的商业思考是什么？R1 蒸馏出来的小模型部署需要的硬件配置怎样的？

如上这些内容，在我们在打造一个 AI Agent 的过程中，也是花时间比较多的地方，这也是我们需要重点学习的知识。

只有你知道了大模型的一些基本底层原理、能力范围，你才能在流程设计上去弥补这些能力缺陷。

记住，商用 AI Agent 需要重点考虑运行成本、稳定性、可实施性、准确性，这期内容重点也在讲运行成本和准确性。

第一部分大模型的运行原理

首先，我们先简单介绍一下通用大模型和推理大模型指的是什么？

什么是通用大模型

通用大模型指的是像 DeepSeek V3、OpenAI GPT-4 之类的模型。

这类模型相当于一个拥有强大知识储备的研究生或博士生，他们通过大量的训练积累了丰富的知识和经验。

什么是大模型的推理能力

推理大模型指的是 DeepSeek 的 R1、Kimi 的 k1.5 和探索版、OpenAI 的 o1、o3 等模型。

这类模型是建立在通用大模型基础上，增强了推理、逻辑分析和决策能力。

它相当于一位大侦探福尔摩斯，可以从蛛丝马迹的细节中，推导出很多隐藏的真相和答案，帮我更好的解决问题。

DeepSeek-R1 的推理能力是在 V3 的基础上进一步训练的。

AI Agent 的核心能力也是建立在大模型的推理能力之上的，推理能力越强，AI Agent 的自主解决、处理能力就越强。

通用大模型和推理大模型的区别

为了更好的区分两种大模型，我们先说一个概念，“慢思考，快思考”，快思考对应系统 1，慢思考对应系统 2，这是获过诺贝尔经济学奖的丹尼尔·卡尼曼在其著作《思考，快与慢》中提出的一个概念。

	快思考（系统 1）	慢思考（系统 2）
举例	3+5 等于几？我们立刻就知道答案是 8，这就是大脑中的快思考。	127 * 206 等于多少？我们大多数人就需要一张草稿纸，一步一步的进行运算，这就是慢思考。
解释	思考过程是无意识的，而且毫不费力，一切都是自然而然发生的。	首先，你会从记忆中重新提取读书时所学的乘法相关知识，然后加以运用。这个过程不容易，你得记住很多内容，你要知道自己算到哪一步了，知道下一步该怎样做，同时还要记住已得到的结果。这个计算过程是脑力工作，需要刻意、努力并且有序地进行。
特点	脱口而出	三思而后行
结果	不熟悉的，需要深度思考，出错的概率大	思考周全，出错概率不大

理解了“快思考，慢思考”，我们在来理解通用大模型和推理型大模型就容易多了，“快思考”对应的就是通用大模型，“慢思考”对应的就是具有推理能力的大模型。

两者之间区别是：

推理大模型的优势在于数学、逻辑分析、代码生成、复杂问题拆解；劣势在于创造力，例如内容创作、创意、想象力等。
通用大模型的优势在于文本生成、创意写作、多轮对话等通用场景，劣势在于推理大模型的优势部分。

简单的理解，可以把推理大模型看成理科生，通用大模型看成文科生。

通用大模型如何提升推理能力

接下来，我们再看看通用大模型是如何提升推理能力的。

思维链

一种方式是基于思维链（Chain of Thought， CoT），就是让大模型将一个复杂问题拆解为一个个的子问题，再依次解决。

简单来说，就是在给大模型的提示中明确告诉它应该怎么去思考，或者在提示词后面，增加“请一步一步思考”，就可以“唤醒”通用大模型的推理能力，这种推理能力不是大模型的自身带的，而是我们通过引导激发出来的。

我们用一个翻译的例子进一步说明一下。

如下图片为在提示词的最后追加了“请一步一步思考”。

可以看到大模型自己将翻译过程自动分成多个步骤，每一个步骤都是一次思考，最终输出翻译结果。

如下图片为我们在提示词中，规定了大模型的翻译步骤。

可以看到大模型按照我们规定的步骤进行思考，最后输出翻译结果。

AI 工作流编排

另外一种方式，就是 AI 工作流编排，它将复杂的任务分解为一个个有序的步骤，从而解决一些复杂问题，它本质上是思维链的一种应用。

例如 Coze 、Dify 中我们用到的工作流，流程中的每个节点都可以被视为思维链中的一个“思考步骤”。

如下为在 Coze 中编排的一个文章总结、保存到飞书中的工作流，在整个流程中，可以调用大模型、可以对接第三方平台，可以执行代码等等。

这种方式扩宽了大模型解决问题的能力边界。

以上两种方式都是通过外部手段提升通用大模型的推理能力，这种后期的人为提升，肯定也是因人而异，有的人会写提示词，有的人会设计流程，有的人啥也不会。

所以我们更希望能利用大模型自身来去解决复杂问题，我们不需要写复杂的提示词，只需要提出我们的需求，这个时候大模型的推理能力应运而生。

大模型的推理能力如何工作的

2024 年 9 月份 OpenAI 公司发布的 o1 是第一款具有推理能力的模型。

2025 年 1 月 20 日，DeepSeek 正式发布 DeepSeek-R1 推理能力模型，由于开源，且性价比相当高，马上火爆出圈。

这种推理能力就是将前面提到的思维链和工作流编排（目前只包含提示词，不包含工具调用等）嵌入到模型自身，使得模型在生成最终答案前能够进行逻辑推理，考虑多种方案，然后选择最优方案，这种运行方式也是我们前面提到的“慢思考”。

下面的图片是 DeepSeek-R1 模型的内部推理过程，从图片中我们可以看到三轮推理过程中，期间每次都会把上一轮的问题和回答传到下一轮，用于后面借鉴，几轮下来后，Token 就会越来越大。

最终需要几轮，要看模型在哪一轮能发现最优解决方案，则推理成功，输出结果。

从整个推理过程中，我们可以发现几个现象：

推理时间长，需要用户等待几秒、几十秒、甚至几分钟，那么在商用的时候就需要从用户的角度去考虑这一点，让客户干等着？还是让它异步执行，执行完后给用户通知？
过程会产生大量的 Token，成本就会高，它可能是通用大模型的几十倍甚至上百倍，那么商用的时候，我们需要着重关注 Token 的消耗情况，此外是用本地部署？还是用云端？需要综合考量。
不是所有的场景都用推理模型，在一个 AI Agent 中应该根据场景特点，混合使用大模型。

如下图是在 DeepSeek R1 上运行刚才翻译的例子，可以看到思考过程输出的内容很多，在商用调用 API 接口的时候，这些内容都会消耗 Token，计算为费用。

我们可以对比一下，三种形式的翻译，结果基本一样，采用推理模型虽然提示词简单，但是过程消耗的 Token 太多了，所以这种场景就可以不使用推理大模型。

我们再举一个极端的例子，“1+1 等于几”，来看看通用大模型和推理大模型的输出情况，可以更加直观的可以看到一个简单的问题使用推理大模型，消耗的 Token 是通用大模型的好多倍。

这相当于问大侦探福尔摩斯一个简单的问题，福尔摩斯心里想问到我这里的问题能是简单的问题吗，然后脑子里就开始飞速的转起来，这里推理一下，那边在推理一下，结果到最后一看，原来谜底就在谜面上啊，费了那么多脑细胞。

第二部分大模型的上下文长度的概念

说完大模型的运行原理，接下来，我们在一起看一个概念“上下文”。

这个知识点非常重要，重点中的重点，大家一定要搞清楚这个概念，很多朋友和大模型聊一会发现输出的内容越来越差，大概率是因为不清楚这个知识点。

这个也是大模型的能力边界中的一个知识点，知道能力边界后，我们在开发 AI Agent 的时候，在与大模型交互的时候，才知道采取何种策略来解决。

上下文分为上下文长度（Context Length）和上下文窗口（Context Window）。

上下文长度，决定了一次性输出的字数

上下文长度（Context Length）， 决定了大模型一次性可以输出文字的数量。

它是我们与大模型单次交互中可以处理的最大 Token 数量，这个数量包含我们的输入和大模型的输出。

这就意味着我们在输入提问时的提示词越多，那么大模型返回内容的 Token 数量就越少。

注意，有的大模型没有注明上下文长度，例如 DeepSeek V3 和 R1 的官方文档中约定了一次最大输出长度为 8K Token，即大约 4000 个汉字。

简单解释一下 Token，它是大模型用来表示自然语言的基本单位，也是计费单位，可以直观的理解为“字”或“词”，通常 1 个中文词语、1 个英文单词、1 个数字或 1 个符号计为 1 个 Token。

不同模型的 Token 和字数换算情况不一样，如下是 DeepSeek 的官方换算规则：

1 个英文字符 ≈ 0.3 个 Token。
1 个中文字符 ≈ 0.6 个 Token。

还有一个问题，我们需要注意的是，上下文长度中的输入不仅仅包含我们输入的提示词，还包含聊天应用底层的系统提示词和我们不知道的其他输入，我们上传的文档，互联网搜索的内容等等。

有的朋友可能又有疑问了，我上传的文档相当之大，已经超出了上下文长度了，为什么第一次交互的时候，输出的结果还不错呢？那可能是聊天应用端做了优化处理，例如先将文档读取、识别、总结后，然后连同我们写的提示词一起发给大模型，具体大家需要亲自测试。

如果我们发现大模型输出的内容本应该很多，但是却很少，就需要看看是不是我们一次性输入的内容是不是太多了，或者一次性让大模型输出不同维度的内容太多了。

上下文窗口，决定了一次会话中可以记忆多少内容

上下文窗口（Context Window），决定了一次会话中可以记忆多少内容。

就是在大模型回复时可以参考前面内容的范围，例如在一个会话里，你已经和大模型互动了 10 次，在第 11 次互动时，大模型可以参考前面 10 次互动的内容，这样有助于大模型回复的时候保持与前面的内容保持一致性。

例如我们再让大模型帮我们对数据进行分析，前面几轮互动中，我们发给大模型一些数据，那么后续大模型回复的时候，就会依据这些数据进行回复。

但是如果几轮互动后，输入输出的总长度超过了上下文窗口的总长度，那么最早的数据，大模型就会忘记，会导致后面的数据分析没有之前的数据作为依托，出现胡说八道的情况。

因此如果发现与大模型几轮互动后，发现它输出的内容越来越不靠谱，那么就需要考虑一下是否超出了上下文窗口的总长度。

这种情况下，就需要和大模型在多个会话中交互，解决同一个问题。

在 DeepSeek V3 和 R1 的官方文档中约定了上下文窗口长度为 64K Token，即大约 2-3 万个汉字。

我们大家要注意每家大模型对于上下文长度、上下文窗口长度的定义不一样，DeepSeeK 定义了最大输出长度和上下文长度，这里的上下文长度就是上下文窗口长度。

需要我们去官方看对应的解释。

小结一下：

上下文长度和上下文窗口越大，大模型对我们提出的问题理解的就越深刻、越精准，这相当于脑容量的大小。

总结 500 页书为两页时，大模型需理解书的结构和核心观点，较大的上下文有助于更好地把握内容。
创作 3 万字小说时，大模型需理解小说结构和情节发展，较大的上下文可帮助其把握故事走向。
在 AI 客服应用中，客户与 AI 机器人可能长时间对话，较大的上下文能让机器人记住早期聊天记录。
在代码编写中，大模型需理解代码上下文，如变量定义、函数调用等，较大的上下文可帮助其理解代码结构，一次性生成整个项目代码。
在 RAG 场景中，模型需结合外部文档或搜索数据生成回答，较大的上下文有助于理解检索内容并结合问题生成准确回答。

第三部分 DeepSeek R1 的提示词的使用技巧

接下来我们开始聊 R1 的提示词使用技巧。

DeepSeek V3 提示词生成器、模版

在讲 DeepSeek R1 之前，我们先看看用大模型 DeepSeek V3 的提示词，V3 的提示词跟其他大模型的差不多，官方网站也有最佳实践的例子，其中一个例子“模型提示词生成”，我们可以用它来生成你需要的提示词，然后在进行调整。

DeepSeek 官方提示词生成器：

复制

你是一位大模型提示词生成专家，请根据用户的需求编写一个智能助手的提示词，来指导大模型进行内容生成，要求：
1. 以 Markdown 格式输出
2. 贴合用户需求，描述智能助手的定位、能力、知识储备
3. 提示词应清晰、精确、易于理解，在保持质量的同时，尽可能简洁
4. 只输出提示词，不要输出多余解释

请帮我生成一个“Linux 助手”的提示词

DeepSeek R1 万能提示词模版

接着我们看一下 DeepSeek R1 的万能提示词模版。

背景 + 需求 + 【结构化提问 + 输出风格】

注：

1、背景和目的是必须的，结构化提问、输出风格可以根据实际情况进行选择。

2、提示词简洁，无废话。

3、结构化提问、输出风格的作用是限定大模型的推理方向，但在一定程度上也会降低大模型的思考维度。

背景

简洁的说明你的背景，可以让 AI 理解你的真实需求，背景可以是你自身的角色或者知识水平，也可以是你的业务场景，也可以是一些限制条件。

可以按照「领域 + 知识水平 + 限制」的结构说明。

例如："（领域）我要开发一款管理自媒体的 AI Agent，（知识水平）我不会编程，（限制）需要在 1 个月内实现热点素材自动化采集，（问题）请问应该选择哪个无代码开源框架？"

需求

明确你的核心问题，避免模糊提问。

例如：

错误示例：“请帮我推荐一个采集框架”。

正确示例：“请帮我推荐一款不需要写代码，通过配置就可以采集数据的开源框架”。

结构化提问

结构化提问的方式，可以让大模型有重点的按照指定顺序输出。

例如：分析市场时，可以在提示词中加入结构化的提问：“第一步：分析挖掘机市场的主要竞争者；第二步：列出每个竞争者的市场份额和产品特点；第三步：预测市场未来的趋势。”

输出风格

输出风格一方面可以对技术类内容，让其通俗易懂的讲解，或者模仿某个人的风格写作，例如提示词中加入“通俗易懂”、“讲人话”、“用脱口秀风格”。

例如：“我是技术小白，给我讲一下什么大模型？讲人话”。

通用大模型和推理大模型在提示词方面区别

接着我们看一下通用大模型和推理大模型在提示词方面的区别。

通过示例对比，我们可以看到推理模型的提示词我们尽可能的要写的简单，写的过多会影响大模型的各个维度的思考。

但是通用大模型则不一样，它拥有丰富的知识储备，但是不会进行“慢思考”，所以我们和它交流的时候，我们需要给它思考的步骤，即思维链。

商用场景提示词示例

接下来，我们聊一下一些商用使用场景，可以分为让大模型帮我们做决策、做分析、想创意、验证方案、规划执行策略。

如下示例为抛砖引玉，具体还是需要结合自身的需求来撰写。

每一个场景模版的第一部分是必须要写的，后面几部分是为了限定大模型的思考方向、输出形式。

具体的，可以两者都发送给大模型，看看哪个回答效果更好。

做决策

介绍：让 AI 从多个方案中选择一个最好的方案。

模版：目标（想达成什么）+ 选项（有哪些选择）+ 评估标准（怎么判断好坏）。

为了加大企业在自媒体平台的传播力度，促进销售，现有两种方案：
1、投放广告 2、加大原创内容制作
请根据 AARRR 增长漏斗模型，对比 6 个月内的数据（附件 Excel），推荐最优方案。

做分析

介绍：提供数据给 AI，让 AI 挖掘数据背后的规律和原因。

模版：问题（想知道什么）+ 数据/信息（手头有什么资料）+ 分析方法（怎么挖）。

分析公司过去一年的自媒体运营数据（附 Excel），说明：
1、内容发布频率与粉丝增长的关联性；
2、使用 ARIMA 模型对下一年度的运营方式进行预测，并详细解释所选模型的参数选择依据。

想创意

介绍：让 AI 为企业的营销、宣传等提供创新的、脑洞大开的内容。

模版：主题（搞什么）+ 风格/约束（有什么要求）+ 创新方向（怎么与众不同）。

设计一套自媒体内容创新方案，要求：
1、提升内容的吸引力和传播力；
2、结合热点话题和用户兴趣；
3、提供两种不同内容形式的创意方案说明。

验证方案

介绍：提供方案给 AI ，让 AI 协助验证方案的可行性、可落地性或者风险点等。

模版：结论/方案（验证什么）+ 验证方法（怎么检查）+ 风险点（可能哪里出问题）。

A 形式标题优于 B 形式标题，请验证：
1、两种形式数据指标 2、通过 A/B 测试

如何执行

介绍：给出目标，让 AI 协助输出执行过程，例如写代码、画流程图。

模版：任务（做什么）+ 步骤约束（怎么操作）+ 输出格式（结果长啥样）。

梳理<自媒体编辑>这个角色的工作流程，要求： 1、标记哪些可以由 AI 来协助，哪些我来去做。 2、以表格的形式（工作内容/AI 协助/人工来做）输出。

DeepSeek R1 写提示词的注意事项

无须提供参考例子，否则 R1 性能会出现明显下降。
复杂角色扮演以及 JSON 输出，R1 的表现不及通用大模型 DeepSeek V3。
避免一次会话中与 R1 多轮交互，多轮交互后其表现不如 V3。
不要用思维链提示，例如一步步思考等提示词。
概念解释不需要了，R1 会自己搞明白，例如提示词中用到“金字塔原理”，无需对其解释。
R1 和 V3 的单次输出字数在 2000 - 4000 个汉字，如果让大模型一次性输出的内容太多，可以分多次输出。
R1 和 V3 一次会话的总字数在 2 万 - 3 万个汉字，上传附件时需要注意，否则前面的内容 AI 会忘记。
原先的结构化提示词依然有用，但主要集中在背景和需求描述上，但需要简洁明了。
背景、需求描述上不要过于笼统，也不要过度复杂，缺少关键细节会让结果偏离预期，要求太多则会让 R1 难以抓住重点，或者限制它的自由推理空间。
初次输出不满意不要放弃，一方面可以要求 AI 对输出的内容自我评估，提供改进建议，另外一方面我们可以在后续提问指导 AI 进行改进。

什么是 Temperature？

有的朋友可能不知道 Temperature 参数是起什么作用？

Temperature 设置的值越高，AI 输出的内容更有创意，更加天马行空，例如诗歌创作。

反之，输出的内容更加严谨，例如代码生成、数学解题。

在 DeepSeek 官方聊天窗口，Temperature 参数默认设置为 1.0，但在其他平台上是可以配置这个参数，如下为官方提供的建议。

场景	温度
代码生成/数学解题	0
数据抽取/分析	1
通用对话	1.3
翻译	1.3
创意类写作/诗歌创作	1.5

小结一下

DeepSeek 官方对 R1 的能力描述，它在数学、代码、自然语言推理等任务上表现很不错，因此不要把它当成万能的大模型。

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

- 官方技术白皮书

第四部分 DeepSeek R1 的商用场景

接下来，我们聊一下 DeepSeek R1 的商用场景。

DeepSeek R1 带给我们的惊喜

在开始聊商用场景之前，我们先看看 DeepSeek 带给我们哪些惊喜。

推理能力强：DeepSeek R1 的性能优于其他推理模型，在某些测试中，它与 OpenAI 的 01 模型表现相当，有时甚至更好。
性价比高：DeepSeek R1 的定价非常便宜，相比较性能相同的推理模型，价格便宜几十倍。
多种版本可选：R1 提供多种不同大小推理模型，我们可以根据自己的计算资源选择合适的版本。
开源免费：DeepSeek R1 是一个完全开源的模型，采用 MIT 许可证，免费使用，且可以用于商业。
降低提示词使用门槛：R1 自身会一步步的去推理解决问题，这样就降低了我们使用 AI 的门槛。
展示思考过程：DeepSeek-R1 会向我们展示了思考过程，如果你想学习某件事，能够看到大型语言模型的思考过程是非常重要的。

这些惊喜极大推动 AI Agent 商用场景的落地以及中小企业的在 AI 应用上的普及。

接下来我们再聊一下两个技术，我们同样也会得到一些惊喜。

什么是强化学习

先说一下强化学习。

DeepSeek-R1 技术论文中，讲到直接使用强化学习。

简单的说，强化学习就是通过不断“试错”来找到最好解决问题的办法。

想象一下一个小孩刚学着站立，它开始不知道如何站立，会尝试各种方法，最终找到了站的稳的方法。

这意味着，当你问 DeepSeek-R1 一个问题时，它会多次思考解决方案。

它会先提出答案，然后重新评估其答案，思考这个答案可能出错的地方，再想一个更优的答案，这样一步步的思考、完善答案，直到大模型认为最好的一个答案，然后输出给我们。

这也是为什么与推理模型进行交互的时候，提示词需要说的简练，说的过于复杂，会限制推理大模型的思考发挥。

什么是“蒸馏”

再说一下“蒸馏”

蒸馏就是让大模型教小模型本事，简单的理解就是老师把自己某些方面的能力移植到学生身上的一个过程。

这样小模型的能力会变强，资源耗用方面不会提升太大。

具体过程就是：

首先，需要一个能力强的大模型，例如 DeepSeek R1。

其次，让 DeepSeek R1 生成用于训练小模型的数据样本（问题、答案、思维链的思考过程），这些数据样本侧重训练推理能力的。

然后，在小模型 Qwen-7B 上用数据样本进行训练。

最后，得到新的小模型 Qwen-7B 在推理能力上会大大提高。

这意味着，小模型也可以拥有大模型的能力，降低了模型运行成本，为商业 AI 应用的发展提供基础。

因此在未来我们做一个 AI Agent 的场景，是可以混合使用大模型、小模型的。

DeepSeek R1 蒸馏出来的小模型运行硬件配置

接下来，我们看一下蒸馏出来的小模型的运行硬件配置。

这个表格来自网络，仅供参考，大家也可以问 Kimi，我个人不建议中小型企业独立购买硬件部署，会增加很多额外的成本，例如服务器的运维、模型自身升级的运维，建议还是用 API 接口，或者云服务。

抛砖引玉，商用场景应用

最后我们说一下商用场景，AI 从 2023 年到目前，大部分集中在写作、出图、出视频方面，但是大面积的在企业业务流程上使用还是少数，主要因素还是是 Token 消耗的成本过高，大模型的幻觉。

OpenAI 的 o 系统面世，虽然将大模型的幻觉进行了改进，但是其高昂的费用，在企业商用上还是一笔不小的开销。

但是 DeepSeek R1 的面世，在提升大模型能力的前提下，价格一下子降下了几十倍，我们也可以不用云端 API，可以自己独立部署，这对企业来说，是一个极好的消息。

下面是我搜集的大家都在用 DeepSeek 在哪些商业场景上开始应用了。

内容生成与营销

使用 DeepSeek R1，可以撰写出吸引眼球的广告文案，并生成极具吸引力的社交媒体内容。此外，它还能根据关键词进行 SEO 优化。

改进客户服务

DeepSeek R1 驱动的聊天机器人能响应常见客户咨询，协助安排预约，甚至提供基础的咨询，从而提升客户满意度。

软件开发

在软件开发中，DeepSeek R1 可以协助我们进行代码开发和调试。并且能够自动化生成技术文档，大大提高了开发人员的效率。

财务与数据分析

在金融领域，DeepSeek R1 提供预测分析功能。同时，凭借其强大的数据分析能力，它还能有效进行风险评估。

合同审阅

想想我们审阅合同所花费的时间。DeepSeek R1 能够分析这些文档，提取关键条款，识别潜在风险，并提出改进建议。

律师助手

DeepSeek R1 可自动化起草诉状、合同和证据请求等标准化法律文件，节省时间、降低错误。

RPA 操控浏览器

最后就是给大家演示使用 browser-use 如何写一个指令，让浏览器自动执行，DeepSeek 没有出来之前，browser-use 执行一次简单的命令也需要消耗大量的 Token，现在虽然还有些缺陷，随着推理大模型能力的不断提升、Token 成本的进一步降低，相信过不了多久就可以商用了。

DeepSeek-R1详细解读！

DeepSeek-R1爆火，今天来详细看下。论文地址：：：：现有LLMs在推理任务上的改进主要依赖监督微调（SFT）和后训练（Post-Training）方法，但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链（Chain-of-Thought, CoT）提升了性能，但其测试时扩展仍存在挑战。

2/19/2025 8:00:00 AM

GoldMa

服务器总是繁忙？DeepSeek-R1本地部署图文版教程来啦

最近一段时间，国产大模型DeepSeek-R1在市场上迅速崛起，成为了众多用户的新宠。然而，伴随其热度与用户量的急剧攀升，由此导致服务器繁忙的状况频繁出现。为了摆脱服务器繁忙的困扰，本地部署DeepSeek-R1成为了一个绝佳的解决方案，这不仅减少了对网络连接的依赖，还能增强数据安全性。

2/17/2025 10:33:19 AM

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

成本打下来了，需求更多才对？春节这几天，国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆（参见《英伟达市值蒸发近 6000 亿美元，而 DeepSeek 刚刚又开源新模型》）。

1/29/2025 6:43:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

从理论到实践：学会如何商用 DeepSeek，收藏这一篇就够了

第一部分 大模型的运行原理

什么是通用大模型

什么是大模型的推理能力

通用大模型和推理大模型的区别

通用大模型如何提升推理能力

思维链

AI 工作流编排

大模型的推理能力如何工作的

第二部分 大模型的上下文长度的概念

上下文长度，决定了一次性输出的字数

上下文窗口，决定了一次会话中可以记忆多少内容

第三部分 DeepSeek R1 的提示词的使用技巧

DeepSeek V3 提示词生成器、模版

DeepSeek R1 万能提示词模版

背景

需求

结构化提问

输出风格

通用大模型和推理大模型在提示词方面区别

商用场景提示词示例

做决策

做分析

想创意

验证方案

如何执行

DeepSeek R1 写提示词的注意事项

什么是 Temperature？

小结一下

第四部分 DeepSeek R1 的商用场景

DeepSeek R1 带给我们的惊喜

什么是强化学习

什么是“蒸馏”

DeepSeek R1 蒸馏出来的小模型运行硬件配置

抛砖引玉，商用场景应用

内容生成与营销

改进客户服务

软件开发

财务与数据分析

合同审阅

律师助手

RPA 操控浏览器

相关资讯

DeepSeek-R1详细解读！

服务器总是繁忙？DeepSeek-R1本地部署图文版教程来啦

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

第一部分大模型的运行原理

第二部分大模型的上下文长度的概念