理论
DeepSeek 实现任务调度分片算法 , 灵性十足,远超预期 !
这几天,中国人工智能公司 DeepSeek 火了,不仅在美区下载榜上超越了 ChatGPT ,还引发多个美国科技股的股价暴跌。 美国总统特朗普称 DeepSeek 的出现“给美国相关产业敲响了警钟”。 于是,怀着极强的好奇心,我尝试让 DeepSeek V3 模型帮我完成任务调度系统分片功能,流程见下文。
2/3/2025 10:00:00 AM
勇哥
DeepSeek R1 简易指南:架构、本地部署和硬件要求
DeepSeek 团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。 该研究突破性地采用强化学习(Reinforcement Learning)作为核心训练范式,在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。 技术架构深度解析模型体系:DeepSeek-R1系列包含两大核心成员:DeepSeek-R1-Zero参数规模:6710亿(MoE架构,每个token激活370亿参数)训练特点:完全基于强化学习的端到端训练核心优势:展现出自我验证、长链推理等涌现能力典型表现:AIME 2024基准测试71%准确率DeepSeek-R1参数规模:与Zero版保持相同体量训练创新:多阶段混合训练策略核心改进:监督微调冷启动 强化学习优化性能提升:AIME 2024准确率提升至79.8%训练方法论对比强化学习与主要依赖监督学习的传统模型不同,DeepSeek-R1广泛使用了RL。
2/3/2025 6:00:00 AM
dev
ChatGPT 被逼急了,连夜上线 o3-mini,并且还免费......
也许是迫于 DeepSeek 的压力,open ai 的负责人 萨姆·奥尔特曼,连发多个 Twitter(现在是 X) 推出了新的模型 o3-mini,并且包含三个版本:low、medium 和 high,分别针对不同的性能和资源需求优化。 图片现在,只要大家打开 chatgpt 的官网,就可以看到大大的 o3-mini 的宣传海报:图片图片虽然 o3-mini 的具体性能还没有经过广泛的实战验证,但是一些第三方的初步评测已经流出。 尤其是发布 几个小时后,加州大学的一位 AI 博士就对包括 o3-mini 在内的多款大语言模型进行了测试,评测指标包括 Accuracy(准确率) 和 Calibration Error(校准误差)图片根据评测结果可以看到,在他的评测中 o3-mini (high) 模型的 准确率为 13.0% 为全场最高。
2/3/2025 12:15:00 AM
程序员Sunday
DeepSeek 火爆了,主打高性能低价格!
大家好,我是君哥。 春节这几天,DeepSeek 可以说是火爆了,铺天盖地都是 DeepSeek 的报道。 今天,我们一起学习一下 DeepSeek。
2/3/2025 12:00:15 AM
朱晋君
硅谷掀桌!DeepSeek遭OpenAI和Anthropic围剿,美国网友都看不下去了
顶级“礼遇”。 一觉醒来,OpenAI和Claude母公司都对DeepSeek出手了。 据《金融时报》消息,OpenAI表示已经发现证据,证明DeepSeek利用他们的模型进行训练,这涉嫌侵犯知识产权。
2/3/2025 12:00:10 AM
全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/2/2025 11:41:00 PM
机器之心
万字长文解读Scaling Law的一切,洞见LLM的未来
Scaling Law 撞墙了吗? 这算得上是近段时间 AI 领域最热门的话题之一。 近日,资深机器学习研究科学家 Cameron R.
2/1/2025 7:58:00 PM
机器之心
赛博树突觉醒!AI 仿生革命:更少参数,更强性能,过拟合?不存在的!
编辑丨&人工神经网络(ANN)是大多数深度学习(DL)算法的核心,这些算法可以成功解决图像识别、自动驾驶和自然语言处理等复杂问题。 然而,与能够高效解决类似问题的生物大脑不同,DL 算法需要大量可训练参数,这使得它们能耗高且容易过拟合。 来自希腊研究与技术基金会两位研究员示了一种新的 ANN 架构,它结合了生物树突的结构化连接和受限采样特性,抵消了这些限制。
2/1/2025 3:04:00 PM
ScienceAI
Nature发布:2025年值得关注的七项技术
编辑 | 20492025 年,全球科技发展正以惊人的速度重塑人类社会的未来。 在气候危机、疾病威胁与资源短缺的多重压力下,技术创新聚焦于两大核心方向:可持续性与人工智能(AI)的深度结合。 《Nature》盘点了今年将密切关注的七项技术,从实验室的自动化革命到城市的生态改造,从精准医疗到环境修复,七项技术不仅加速科学发现,更试图为人类提供应对复杂挑战的规模化方案。
2/1/2025 3:03:00 PM
ScienceAI
David Baker 利用 AI 设计蛋白质,一招制蛇毒,或将彻底改变蛇咬治疗
编辑丨&蛇中毒是一种严重的个人健康威胁,每年导致约 10 万人死亡和 30 万人永久残疾,尤其是在医疗资源匮乏的地区。 目前的抗蛇毒血清主要依赖于动物血浆提取的多克隆抗体,存在成本高、副作用大、对某些毒素效果有限等问题。 今年诺贝尔化学奖得主 David Baker 团队的一项研究揭示了蛇咬伤治疗可能改变游戏规则。
1/30/2025 12:03:00 PM
ScienceAI
CityDreamer4D: 下一个世界模型,何必是视频生成模型?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
1/28/2025 1:19:00 PM
机器之心
模型参数作知识通用载体,MergeNet离真正的异构知识迁移更进一步
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
1/28/2025 1:08:00 PM
机器之心
验证速度提升25倍,准确率达95.1%,清华团队提出基于物理信息学习的电池衰减预测方法
图 1:研究概念图。 编辑 | ScienceAI随着全球对可再生能源需求的日益增长,电池作为储能系统关键技术的地位愈发凸显。 然而,电池研发过程中面临着从材料原型到商业产品转化的重重挑战,电池原型验证效率低、研发成本高以及生产废料管理不善等问题制约着电池行业的可持续发展。
1/27/2025 7:13:00 PM
ScienceAI
闲来无事,我测了测国产大模型的RAG能力 新智元 新智元 2025年01月27日 12:25 北京
最近,AI界被推理模型刷屏了。 国内各家的推理模型,在新年到来之际不断刷新我们的认知。 不过,当我们在实际应用中考量大模型,衡量好不好用的标准,就绝不仅仅局限于其性能和规模了。
1/27/2025 12:41:00 PM
新智元
28年AGI撞上数据墙,以后全靠测试时计算?CMU详解优化原理
2025年主导AI的将是第3代scaling law:测试时计算。 正如Michael Dell转述所言:第一代scaling:预训练像读大学第二代scaling:微调像读博士第三代scaling:测试时计算就像深度思考和推理近日,计算机强校CMU机器学习系,发表博客文章解释LLM测试时计算优化问题,特别是涉及到的元强化学习(meta-RL)问题。 文章亮点如下:监督学习只是在训练模型「答案是什么」,只要学习「如何解答」,模型泛化性会更好。
1/27/2025 12:34:02 PM
新智元
DeepSeek R1,如此火爆!
编辑 | 言征、伊风相信连DeepSeek的创始人梁文锋自己都没有想到,春节前的一次发布,让全球AI圈都陷入了“冰与火”之中,一方面大洋两岸都在惊叹:一家出自浙江的非“六小龙”公司能欧这么短时间就能用开源的方式,推出性能堪比甚至赶超OpenAI o1的模型,成本却更是出奇的低。 一时间,全球AI玩家纷纷快速推出自己的“DeepSeek-R1”复刻版。 抱抱脸、伯克利、港科大很快就用实力证明了:DeepSeek R1 是名副其实的国产推理模型的巨大胜利!
1/27/2025 12:30:07 PM
言征
DeepSeek在美超越ChatGPT!问鼎苹果免费App第一
DeepSeek的热,还在持续ing。 就在刚刚过去的周末,DeepSeek反超ChatGPT,一举登顶美区苹果应用商店免费App排行第一! 其热度之高,有网友甚至这样描述:我甚至都不喜欢AI助手应用,但我已经下载了DeepSeek。
1/27/2025 12:28:55 PM
量子位
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
腾讯
神经网络
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
人形机器人
深度学习
AI视频
模态
xAI
驾驶
字节跳动
文本
搜索
大语言模型
Claude
Copilot
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
训练
大型语言模型