理论

DeepSeek 实现任务调度分片算法 , 灵性十足，远超预期 !

这几天，中国人工智能公司 DeepSeek 火了，不仅在美区下载榜上超越了 ChatGPT ，还引发多个美国科技股的股价暴跌。美国总统特朗普称 DeepSeek 的出现“给美国相关产业敲响了警钟”。于是，怀着极强的好奇心，我尝试让 DeepSeek V3 模型帮我完成任务调度系统分片功能，流程见下文。

2/3/2025 10:00:00 AM

勇哥

DeepSeek R1 简易指南：架构、本地部署和硬件要求

DeepSeek 团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。该研究突破性地采用强化学习（Reinforcement Learning）作为核心训练范式，在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。技术架构深度解析模型体系：DeepSeek-R1系列包含两大核心成员：DeepSeek-R1-Zero参数规模：6710亿（MoE架构，每个token激活370亿参数）训练特点：完全基于强化学习的端到端训练核心优势：展现出自我验证、长链推理等涌现能力典型表现：AIME 2024基准测试71%准确率DeepSeek-R1参数规模：与Zero版保持相同体量训练创新：多阶段混合训练策略核心改进：监督微调冷启动强化学习优化性能提升：AIME 2024准确率提升至79.8%训练方法论对比强化学习与主要依赖监督学习的传统模型不同，DeepSeek-R1广泛使用了RL。

2/3/2025 6:00:00 AM

dev

ChatGPT 被逼急了，连夜上线 o3-mini，并且还免费......

也许是迫于 DeepSeek 的压力，open ai 的负责人萨姆·奥尔特曼，连发多个 Twitter（现在是 X）推出了新的模型 o3-mini，并且包含三个版本：low、medium 和 high，分别针对不同的性能和资源需求优化。图片现在，只要大家打开 chatgpt 的官网，就可以看到大大的 o3-mini 的宣传海报：图片图片虽然 o3-mini 的具体性能还没有经过广泛的实战验证，但是一些第三方的初步评测已经流出。尤其是发布几个小时后，加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试，评测指标包括 Accuracy（准确率）和 Calibration Error（校准误差）图片根据评测结果可以看到，在他的评测中 o3-mini (high) 模型的准确率为 13.0% 为全场最高。

2/3/2025 12:15:00 AM

程序员Sunday

DeepSeek 火爆了，主打高性能低价格！

大家好，我是君哥。春节这几天，DeepSeek 可以说是火爆了，铺天盖地都是 DeepSeek 的报道。今天，我们一起学习一下 DeepSeek。

2/3/2025 12:00:15 AM

朱晋君

硅谷掀桌！DeepSeek遭OpenAI和Anthropic围剿，美国网友都看不下去了

顶级“礼遇”。一觉醒来，OpenAI和Claude母公司都对DeepSeek出手了。据《金融时报》消息，OpenAI表示已经发现证据，证明DeepSeek利用他们的模型进行训练，这涉嫌侵犯知识产权。

2/3/2025 12:00:10 AM

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

2/2/2025 11:41:00 PM

机器之心

万字长文解读Scaling Law的一切，洞见LLM的未来

Scaling Law 撞墙了吗？这算得上是近段时间 AI 领域最热门的话题之一。近日，资深机器学习研究科学家 Cameron R.

2/1/2025 7:58:00 PM

机器之心

赛博树突觉醒！AI 仿生革命：更少参数，更强性能，过拟合？不存在的！

编辑丨&人工神经网络（ANN）是大多数深度学习（DL）算法的核心，这些算法可以成功解决图像识别、自动驾驶和自然语言处理等复杂问题。然而，与能够高效解决类似问题的生物大脑不同，DL 算法需要大量可训练参数，这使得它们能耗高且容易过拟合。来自希腊研究与技术基金会两位研究员示了一种新的 ANN 架构，它结合了生物树突的结构化连接和受限采样特性，抵消了这些限制。

2/1/2025 3:04:00 PM

ScienceAI

Nature发布：2025年值得关注的七项技术

编辑 | 20492025 年，全球科技发展正以惊人的速度重塑人类社会的未来。在气候危机、疾病威胁与资源短缺的多重压力下，技术创新聚焦于两大核心方向：可持续性与人工智能（AI）的深度结合。《Nature》盘点了今年将密切关注的七项技术，从实验室的自动化革命到城市的生态改造，从精准医疗到环境修复，七项技术不仅加速科学发现，更试图为人类提供应对复杂挑战的规模化方案。

2/1/2025 3:03:00 PM

ScienceAI

David Baker 利用 AI 设计蛋白质，一招制蛇毒，或将彻底改变蛇咬治疗

编辑丨&蛇中毒是一种严重的个人健康威胁，每年导致约 10 万人死亡和 30 万人永久残疾，尤其是在医疗资源匮乏的地区。目前的抗蛇毒血清主要依赖于动物血浆提取的多克隆抗体，存在成本高、副作用大、对某些毒素效果有限等问题。今年诺贝尔化学奖得主 David Baker 团队的一项研究揭示了蛇咬伤治疗可能改变游戏规则。

1/30/2025 12:03:00 PM

ScienceAI

CityDreamer4D: 下一个世界模型，何必是视频生成模型？

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

1/28/2025 1:19:00 PM

机器之心

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

1/28/2025 1:08:00 PM

机器之心

英伟达市值蒸发近6000亿美元，而DeepSeek刚刚又开源新模型

机器之心报道，编辑：亚鹂、Panda。

1/28/2025 12:57:00 PM

机器之心

验证速度提升25倍，准确率达95.1%，清华团队提出基于物理信息学习的电池衰减预测方法

图 1：研究概念图。编辑 | ScienceAI随着全球对可再生能源需求的日益增长，电池作为储能系统关键技术的地位愈发凸显。然而，电池研发过程中面临着从材料原型到商业产品转化的重重挑战，电池原型验证效率低、研发成本高以及生产废料管理不善等问题制约着电池行业的可持续发展。

1/27/2025 7:13:00 PM

ScienceAI

闲来无事，我测了测国产大模型的RAG能力新智元新智元 2025年01月27日 12:25 北京

最近，AI界被推理模型刷屏了。国内各家的推理模型，在新年到来之际不断刷新我们的认知。不过，当我们在实际应用中考量大模型，衡量好不好用的标准，就绝不仅仅局限于其性能和规模了。

1/27/2025 12:41:00 PM

新智元

28年AGI撞上数据墙，以后全靠测试时计算？CMU详解优化原理

2025年主导AI的将是第3代scaling law：测试时计算。正如Michael Dell转述所言：第一代scaling：预训练像读大学第二代scaling：微调像读博士第三代scaling：测试时计算就像深度思考和推理近日，计算机强校CMU机器学习系，发表博客文章解释LLM测试时计算优化问题，特别是涉及到的元强化学习（meta-RL）问题。文章亮点如下：监督学习只是在训练模型「答案是什么」，只要学习「如何解答」，模型泛化性会更好。

1/27/2025 12:34:02 PM

新智元

DeepSeek R1，如此火爆！

编辑 | 言征、伊风相信连DeepSeek的创始人梁文锋自己都没有想到，春节前的一次发布，让全球AI圈都陷入了“冰与火”之中，一方面大洋两岸都在惊叹：一家出自浙江的非“六小龙”公司能欧这么短时间就能用开源的方式，推出性能堪比甚至赶超OpenAI o1的模型，成本却更是出奇的低。一时间，全球AI玩家纷纷快速推出自己的“DeepSeek-R1”复刻版。抱抱脸、伯克利、港科大很快就用实力证明了：DeepSeek R1 是名副其实的国产推理模型的巨大胜利！

1/27/2025 12:30:07 PM

言征

DeepSeek在美超越ChatGPT！问鼎苹果免费App第一

DeepSeek的热，还在持续ing。就在刚刚过去的周末，DeepSeek反超ChatGPT，一举登顶美区苹果应用商店免费App排行第一！其热度之高，有网友甚至这样描述：我甚至都不喜欢AI助手应用，但我已经下载了DeepSeek。

1/27/2025 12:28:55 PM

量子位

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

理论

DeepSeek 实现任务调度分片算法 , 灵性十足，远超预期 !

DeepSeek R1 简易指南：架构、本地部署和硬件要求

ChatGPT 被逼急了，连夜上线 o3-mini，并且还免费......

DeepSeek 火爆了，主打高性能低价格！

硅谷掀桌！DeepSeek遭OpenAI和Anthropic围剿，美国网友都看不下去了

全面梳理200+篇前沿论文，视觉生成模型理解物理世界规律的通关密码，都在这篇综述里了！

万字长文解读Scaling Law的一切，洞见LLM的未来

赛博树突觉醒！AI 仿生革命：更少参数，更强性能，过拟合？不存在的！

Nature发布：2025年值得关注的七项技术

David Baker 利用 AI 设计蛋白质，一招制蛇毒，或将彻底改变蛇咬治疗

CityDreamer4D: 下一个世界模型，何必是视频生成模型？

模型参数作知识通用载体，MergeNet离真正的异构知识迁移更进一步

英伟达市值蒸发近6000亿美元，而DeepSeek刚刚又开源新模型

验证速度提升25倍，准确率达95.1%，清华团队提出基于物理信息学习的电池衰减预测方法

闲来无事，我测了测国产大模型的RAG能力 新智元 新智元 2025年01月27日 12:25 北京

28年AGI撞上数据墙，以后全靠测试时计算？CMU详解优化原理

DeepSeek R1，如此火爆！

DeepSeek在美超越ChatGPT！问鼎苹果免费App第一

闲来无事，我测了测国产大模型的RAG能力新智元新智元 2025年01月27日 12:25 北京