DeepSeek

深度干货：DeepSeek+Dify强强联合，打造企业专属私有化AI知识库

在数字化转型的浪潮中，人工智能正以前所未有的速度渗透到企业运营的各个环节。尤其对于算力需求旺盛的企业，例如那些关注Nvidia GPU、A800、H100等高性能计算资源的公司，以及积极探索AI Agent（如AutoGen、Devin AI）和低代码平台潜力的组织，如何安全、高效地利用AI提升内部知识管理和对外服务能力，成为其保持竞争力的关键。本文将深入探讨如何通过DeepSeek强大的语言模型，结合Dify便捷的AI应用开发平台，构建一个私有化部署的企业知识库，为企业带来更智能、更安全、更高效的知识管理体验。

4/9/2025 8:00:46 AM

康焕新

斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

就在刚刚，每年都备受瞩目的斯坦福AI指数报告，重磅发布了！这份报告由斯坦福大学以人为本AI研究员发布，代表着每年AI领域最核心和前沿的动向总结。今年，这份报告长达456页，抛出不少惊人观点。

4/9/2025 4:22:00 AM

新智元

斯坦福最新 AI 研究报告出炉：中美模型质量差距缩小至 0.3%

斯坦福最新报告显示，中美顶级AI模型性能差距已缩小至0.3%，中国在AI领域快速崛起。2024年是小型AI模型的突破年，更小更高效的模型表现亮眼。#人工智能##AI前沿#

4/8/2025 2:38:37 PM

陈俊熹

Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o

深度求索（DeepSeek）联合清华大学，合作推出全新 AI 对齐技术 SPCT（自我原则点评调优），突破传统依赖海量训练数据的模式，通过推理阶段动态优化输出质量。

4/8/2025 10:33:03 AM

故渊

比DeepSeek更惊艳，生成式决策如何让机器人拥有创造力？

当传统机器人遇见生成式AI，会擦出什么样的火花？技术的演进从不停滞。如今，我们正处在具身智能发展的关键节点，生成式决策技术正悄然改变着这个领域的游戏规则。

4/8/2025 2:00:00 AM

大数据AI智能圈

论文读得慢，可能是工具的锅，一手实测科研专用版「DeepSeek」

「未来，99% 的 attention 将是大模型 attention，而不是人类 attention。」这是 AI 大牛 Andrej Karpathy 前段时间的一个预言。这里的「attention」可以理解为对内容的需求、处理和分析。

4/7/2025 1:30:00 PM

机器之心

中美 AI 挑战东京大学入学考试：双双合格，英语优异，数学欠佳

大学入学共通考试和二次考试合计的理科得分（满分 550 分）中，o1 获得了 374 分，R1 获得了 369 分，两者均超过了东大在 3 月 10 日公布的理科 3 类合格最低分数线（368.7 分）。

4/7/2025 11:53:05 AM

清源

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！新智元新智元 2025年04月04日 17:33

DeepSeek R2，果然近了。最近，DeepSeek和清华的研究者发表的这篇论文，探讨了奖励模型的推理时Scaling方法。论文地址：，强化学习（RL）已广泛应用于LLM的大规模后训练阶段。

4/7/2025 8:42:00 AM

新智元

DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI

Deepseek在2025年1月颠覆了全球人工智能模型，但谷歌和OpenAI很快发布了Gemini2 Pro和O3。这就产生了一个问题，应该使用哪种人工智能模型来进行客户服务？为了评估这些模型在客户服务任务上的表现，我们必须更深入地了解它们在各种AI基准上的表现。

4/7/2025 5:00:00 AM

晓晓

DeepSeek R2来了？全新推理时Scaling论文联手清华震撼发布！

DeepSeek R2，果然近了。最近，DeepSeek和清华的研究者发表的这篇论文，探讨了奖励模型的推理时Scaling方法。图片论文地址：，强化学习（RL）已广泛应用于LLM的大规模后训练阶段。

4/7/2025 3:44:00 AM

新智元

基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战

群组相对策略优化（Group Relative Policy Optimization，GRPO）已被证明是一种有效的算法，可用于训练大语言模型（LLMs），使其具备推理能力并在基准测试中持续提升性能表现。 DeepSeek-R1 展示了如何通过监督式微调（Supervised Fine-Tuning）与 GRPO 技术的结合，引导模型达到与 OpenAI 的 o1 等顶尖模型相竞争的水平。为了进一步探索其实践应用，我们尝试将这些技术应用于现实场景中。

4/7/2025 2:25:00 AM

DeepSeek AI时代下，数字化转型的本质：拼的不是技术了，是人

你见过多少数字化转型的尝试，最终变成了买软件、堆硬件的采购工程？又有多少企业花了大价钱引入先进系统，却发现员工仍在用Excel表格手动录入数据？数字化转型已成为每个企业的必修课，但成功率却惊人地低。

4/7/2025 1:00:00 AM

大数据AI智能圈

DeepSeek再好，还得先进行数据清洗！

数据分析师的日常，有大半时间都在和数据"搏斗"。每当接到一份数据，第一反应往往是叹气： "这数据质量...又得清洗半天。 " 数据清洗就像是数据分析的"地基工程"，地基不牢，上层再漂亮也会坍塌。

4/7/2025 12:30:00 AM

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

这会是 DeepSeek R2 的雏形吗？本周五，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。当前，强化学习（RL）已广泛应用于大语言模型（LLM）的后期训练。

4/4/2025 1:56:00 PM

机器之心

仅需10万不到，DeepSeek R1 671B大模型本地部署实战指南

最近帮一个朋友部署本地的671b版本的deepseek r1，需求是要完全本地部署，但是又不想花太高的成本，没有并发要求，我一想，用ktransformers框架来部署完全合适。关于机器配置，在挑挑拣拣评比之后，设备选择如下，最终选择的是其中的服务器配置。这套设备下来总成本不到10万，相比如动辄几百万的满血版deepseek R1或者花个五六十万买个deepseek 70b的一体机要值当的多，且不说70b并不是真正的deepseek r1，效果还不如32b的QWQ，就光说一体机的升级也是个麻烦事，买了机器基本就和模型绑定了，以后新模型出来后想升级就难了。

4/3/2025 3:57:48 PM

贝塔街的万事屋

机器学习|从0开发大模型之复现DeepSeek的aha moment

前面一篇文章介绍了《从0开发大模型之DeepSeek的GRPO》，并且实现了一个简单版本的 GRPO 代码，不过从工程领域来看，并没有复现DeepSeek-R1，于是最近申请了48G的显存，结合一些开源的方案复现aha monent，并给出完整的代码和工具链。 1、什么是 aha monent DeepSeek-R1 论文中提到，模型让作者「见证了强化学习的力量和美感」，在DeepSeek-R1-Zero的中间版本，「顿悟时刻」来了：模型学会了以人类的语气进行反思。 aha monent 2、使用什么的基座模型和训练数据由于显卡只有48G，可以用基座模型Qwen2.5，模型大小：0.5B，1.5B，3B训练数据有很多：（可以直接在huggingface上找到） a.AI-MO/NuminaMath-TIR：包括72K行的数学问题，解决方案和答案，是从 NuminaMath-CoT 数据集提炼出来的 b.

4/3/2025 3:46:53 PM

周末程序猿

机器学习|从0开发大模型之DeepSeek的GRPO

DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩，论文发表于2024年2月份：，以下是该论文的摘要原文：复制翻译如下：复制对比数据1、什么是GRPOGRPO 是一种在线学习算法，核心思想是通过组内相对奖励来估计基线，从而避免使用额外的价值函数模型。通过在训练期间使用受训模型自身生成的数据来迭代改进，GRPO 旨在最大化生成补全的优势，同时确保模型保持接近参考策略，下图是论文中的算法流程图：GRPOGRPO 是 PPO (Proximal Policy Optimization，近端策略优化，是一种强化学习算法，由OpenAI于2017年提出，旨在解决策略梯度方法中的训练不稳定问题) 的变体，主要区别是：GRPO 省略 value function modelGRPO 奖励计算，改成了一个 q 生成多个 r，然后 reward 打分GRPO算法流程：采样一组输出并计算每个输出的奖励对组内奖励进行归一化处理使用归一化后的奖励计算优势函数通过最大化目标函数更新策略模型迭代训练，逐步优化策略模型论文中的伪代码2、奖励设计huggingface 库提供 GRPOTrainer 可以直接使用 GRPO 训练，参数包括定义奖励模型和函数。 2.1 奖励模型复制这里的 reward_funcs 参数可以传入奖励模型。

4/3/2025 3:40:41 PM