DeepSeek 频道:探索人工智能前沿,洞见未来科技 - AI在线
欢迎访问我们的 DeepSeek 频道页面,这里汇聚了关于 DeepSeek 技术、应用和最新动态的专业文章。DeepSeek 是一种先进的大语言模型,基于深度学习技术,通过强大的自然语言处理能力,提供精准的语义理解和智能搜索功能。无论您是对大语言模型的基础原理感兴趣,还是希望了解其在各行各业中的应用,我们的文章将为您提供全面的解读。
新研究揭示 DeepSeek / o3 弱点:频繁切换思路放弃正确方向,最短答案往往就是对的
最新研究揭示:在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败 —— 这种现象被研究者称为 Underthinking(欠思考)。
中国红客联盟:与目前网络上传播的所谓“红客联盟工具包”毫无关联
中国红客联盟今就 DeepSeek 事件再次发布声明,称该事件系互联网企业博主为营销宣传,以及某国内小企业借中国红客联盟之名进行的计划性营销牟利行为。
日本经济产业省:目前还很难预测 DeepSeek 对电力需求的潜在影响
据路透社报道,日本经济产业省(METI)通过电子邮件回应了关于数据中心扩张可能增加电力需求的讨论。该部门表示,尽管数据中心的扩展确实可能推高电力需求,但随着类似 DeepSeek 等新技术的出现,未来电力需求的变化仍难以准确预测。
秘塔 AI 接入满血版 DeepSeek R1 推理模型
上海秘塔网络科技有限公司昨日发文官宣,在秘塔 AI 中对 R1 满血版进行集成,并结合了秘塔数十亿的全网数据以及数千万的学术文献。目前版本已上线网页端,App 端将在后续版本上线。
DeepSeek 实现任务调度分片算法 , 灵性十足,远超预期 !
这几天,中国人工智能公司 DeepSeek 火了,不仅在美区下载榜上超越了 ChatGPT ,还引发多个美国科技股的股价暴跌。 美国总统特朗普称 DeepSeek 的出现“给美国相关产业敲响了警钟”。 于是,怀着极强的好奇心,我尝试让 DeepSeek V3 模型帮我完成任务调度系统分片功能,流程见下文。
中国红客联盟:未收到任何来自 DeepSeek 求助请求,也从未与其有过任何形式合作或关联
中国红客联盟昨日发布关于 DeepSeek 事件的官方声明,称未曾收到任何来自 DeepSeek 的求助请求,也从未与其有过任何形式的合作或关联。
DeepSeek R1 简易指南:架构、本地部署和硬件要求
DeepSeek 团队近期发布的DeepSeek-R1技术论文展示了其在增强大语言模型推理能力方面的创新实践。 该研究突破性地采用强化学习(Reinforcement Learning)作为核心训练范式,在不依赖大规模监督微调的前提下显著提升了模型的复杂问题求解能力。 技术架构深度解析模型体系:DeepSeek-R1系列包含两大核心成员:DeepSeek-R1-Zero参数规模:6710亿(MoE架构,每个token激活370亿参数)训练特点:完全基于强化学习的端到端训练核心优势:展现出自我验证、长链推理等涌现能力典型表现:AIME 2024基准测试71%准确率DeepSeek-R1参数规模:与Zero版保持相同体量训练创新:多阶段混合训练策略核心改进:监督微调冷启动 强化学习优化性能提升:AIME 2024准确率提升至79.8%训练方法论对比强化学习与主要依赖监督学习的传统模型不同,DeepSeek-R1广泛使用了RL。
DeepSeek 火爆了,主打高性能低价格!
大家好,我是君哥。 春节这几天,DeepSeek 可以说是火爆了,铺天盖地都是 DeepSeek 的报道。 今天,我们一起学习一下 DeepSeek。
硅谷掀桌!DeepSeek遭OpenAI和Anthropic围剿,美国网友都看不下去了
顶级“礼遇”。 一觉醒来,OpenAI和Claude母公司都对DeepSeek出手了。 据《金融时报》消息,OpenAI表示已经发现证据,证明DeepSeek利用他们的模型进行训练,这涉嫌侵犯知识产权。
o3-mini 碾压DeepSeek R1?一条python程序引发近400万围观
AI 圈的头条被 DeepSeek 承包了十几天,昨天,OpenAI 终于坐不住了,推出了全新推理模型系列 o3-mini。 不仅首次向免费用户开放了推理模型,而且相比之前的 o1 系列,成本更是降低了 15 倍之多。 OpenAI 也称这是其推理模型系列中最新、最具成本效益的模型:刚刚上线,已经有网友迫不及待的拿它和席卷整个大模型圈的国产大模型 DeepSeek R1 进行对比了。
完整的671B MoE DeepSeek R1怎么塞进本地化部署?详尽教程大放送!
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
DeepSeek-R1 大模型登陆腾讯云,宣称“一键部署、3 分钟调用”
深圳市腾讯计算机系统有限公司今日发文宣布,DeepSeek-R1 大模型支持一键部署至腾讯云「HAI」上,开发者仅需 3 分钟就能接入调用。
AI 科学家吴恩达长文盛赞 DeepSeek:中国正在生成式 AI 领域追赶美国
“中国的进步非常迅速,许多来自中国的模型,如通义千问、Kimi、书生InternVL和 DeepSeek,已经显著缩小了与美国的差距,尤其在视频生成领域,中国已在某些时刻超越了美国。”
硅基流动×华为云联合推出基于昇腾云的DeepSeek R1&V3推理服务
2月1日,硅基流动和华为云团队为国内用户推出了基于华为云昇腾云服务的 DeepSeek-R1 和 DeepSeek-V3 大模型推理服务,并在 SiliconCloud 云平台首发上线。这两款模型具有五大特点:支持华为云昇腾云服务,联合创新推理加速,提供稳定的生产级服务,零部署门槛,且有优惠价格。
开发者可以通过 SiliconCloud API 轻松集成这些模型,体验加速效果并提高应用开发效率。平台支持多种大模型和应用,帮助开发者降低算力成本并实现更高效的生成式 AI 应用开发
DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪
外媒 SemiAnalysis 的一篇深度长文,全面分析了 DeepSeek 背后的秘密 —— 不是「副业」项目、实际投入的训练成本远超 600 万美金、150 多位高校人才千万年薪,攻克 MLA 直接让推理成本暴降......
硅基流动 x 华为云推出基于昇腾云的 DeepSeek R1&V3 推理服务
硅基流动今日宣布,经过公司和华为云团队连日攻坚,为国内用户献上春节礼物:大模型云服务平台 SiliconCloud 首发上线基于华为云昇腾云服务的 DeepSeek-V3、DeepSeek-R1,得到了 DeepSeek 与华为云的大力支持。
OpenAI 紧急发布 o3-mini,CEO 阿尔特曼罕见认错并称 DeepSeek“非常好”
阿尔特曼罕见地承认了自己的错误,并表示 OpenAI 正在讨论一个新的开源策略。“我个人认为,在这个问题上我们站错了队,需要想出一个不同的开源策略;不是 OpenAI 的每个人都持有这种观点,而且这也不是我们目前的最高优先级。”阿尔特曼表示。(新浪科技)
英特尔酷睿 Ultra 支持 DeepSeek 运行,可在 AI PC 上实现离线使用
英特尔 AI PC 合作伙伴 Flowy 在最新版的 AI PC 助手(英特尔酷睿 Ultra 独享版)上,率先在端侧支持了 DeepSeek-R1 模型,支持翻译、会议纪要、文档撰写等功能。