DeepSeek

李开复:DeepSeek 的成功证明闭源是“死路”,开源才有更大发展

他认为,随着AI的Scaling Law法则从预训练端转移到推理端上,AI模型、AI应用会在今年迎来新的加速爆发,今年的一个行业口号应该是“Make AI Work”(让AI变得有用)。

微软CEO内部发言看好DeepSeek 重塑AI协作与创新范式

在最近的员工大会上,微软首席执行官萨蒂亚·纳德拉对DeepSeek的评价引人注目,透露出公司在人工智能领域的战略深思。 纳德拉被DeepSeek200人团队的协同能力深深打动,他认为这不仅仅是一个研究项目,更是一个成功转化为市场领先产品的典范。 CoreAI负责人Jay Parikh进一步强调,这个小型团队的成就促使微软重新审视内部协作模式。

DeepSeek倒逼成功!OpenAI 宣布实质性升级 GPT-4o,将面向免费用户数周后开放!数学和编码排名第一!

3 月 28 日,OpenAI 官方宣布为 ChatGPT 中的?GPT-4o 带来了一些功能上的更新,并确认升级版?GPT-4o 已面向所有付费用户开放,而免费用户还要再等几周。 GPT-4o 本次更新聚焦四大核心部分:. 多指令解析优化:显著提升对包含多重需求的复杂指令理解能力.

大规模AI推理再非难事:如何在Kubernetes上部署DeepSeek

译者 | 核子可乐审校 | 重楼随着人工智能的持续发展,高效、大规模部署AI驱动应用程序变得至关重要。 而编排平台Kubernetes在管理容器化AI工作负载、确保可扩展性、弹性以及降低管理难度等方面,无疑将发挥不可替代的作用。 在本文中,我们将共同了解如何在Kubernetes上部署DeepSeek,运用其强大的AI推理模型DeepSeek-R1与Open WebUI集成以实现无缝交互。

企业抢着要的AI方案:DeepSeek-R1微调实战,3天构建行业内容生成器

前言在如今快速发展的AI技术领域,越来越多的企业正在将AI应用于各个场景。 然而,尽管大模型(如GPT、DeepSpeek等)在多个任务上已取得显著进展,但是普通的大模型在面对特定行业或任务时,往往会出现一个问题——AI幻觉。 所谓AI幻觉,是指模型生成的内容不符合实际需求,甚至包含错误或无关的信息,这对于一些行业来说,可能带来不可接受的风险,尤其是在医疗、法律、金融等领域。

DeepSeek 悄然发布 DeepSeek-V3–0324:远超预期的重大升级

DeepSeek 近期悄然发布的 DeepSeek-V3–0324,在 AI 社区和行业内引发了广泛关注。 这一版本是 DeepSeek V3 (DeepSeek-V3 深度剖析:下一代 AI 模型的全面解读)模型的重要升级,其带来的一系列技术革新和性能提升远超众人预期,为开发者和企业带来了新的机遇与可能。 一、DeepSeek-V3–0324 的技术突破(一)Multi-head Latent Attention(MLA)和增强的 DeepSeekMoE 架构DeepSeek-V3–0324 引入了 Multi-head Latent Attention(MLA)和增强版的 DeepSeekMoE 架构,这些创新技术为模型性能的提升奠定了坚实基础。

DeepSeek-V3-0324 发布:更智能的编码体验,加速码农编码效率!

DeepSeek V3 迎来了全新版本的更新;消息一经发布,众多专业人士纷纷对其进行测评,结果令人惊叹不已。 尽管官方将此次升级定义为小版本更新,但在实际的编码能力测试中,其表现丝毫不逊色于大版本的 DeepSeek V4。 在此,我为大家提供一个专业的测评网址:。

GRPO在《时空谜题》中击败o1、o3-mini和R1

近日,海外大模型产品平台 OpenPipe 上发布了一项研究,阐述其如何通过 GRPO 在重度推理游戏《时空谜题》中超越R1、o1、o3-mini 等模型。 研究作者分别为来自 Ender Research 的强化学习研究员 Brad Hilton 和 OpenPipe 的创始人 Kyle Corbitt。 他们的研究表示,他们不仅将模型与 Sonnet 3.7 的差距缩小至个位百分比,同时实现超过100倍的推理成本优化。

DeepSeek上线次月月活用户达1.8亿,AI大模型应用增长迅猛

在当今数智化时代,人工智能(AI)技术的飞速发展正深刻改变着我们的生活和工作方式。 尤其是AI大模型的应用,正成为互联网行业增长的新引擎。 根据QuestMobile发布的最新数据,AI大模型的应用呈现出迅猛的增长态势,其中DeepSeek APP的表现尤为引人注目,其上线次月的活跃用户规模就突破了1.8亿大关。

AI Infra的起飞前夜,跟两位创业者聊了两小时,从DeepSeek的中国朋友圈,到AI基建演进的价值铁律:流量重赏下的勇夫

作者 | 云昭嘉宾 | 黄新平、谭中意出品 | 51CTO技术栈(微信号:blog51cto)“人生不无聊,有太多变化,太多好玩的事情发生。 ”的确,近期围绕DeepSeek的新发布实在太多了,乱花渐欲迷人眼。 从春节期间企业抢先宣布接入DeepSeekR1、继而接入满血版R1,到DeepSeek一体机的出圈,再到国民应用微信的接入,潮潮迭起。

星辰与代码:DeepSeek的发展历程

技术突破阶段2024 年,DeepSeek 强势开启生态扩张与技术爆发的新纪元,成为全球 AI 领域瞩目的焦点。 年初 1 月,DeepSeek 便以 DeepSeek-MoE 震撼登场,创新性架构设计以仅 60% 的计算量损耗,成功超越 Llama 2-7B 性能,为后续技术突破奠定坚实基础,在模型效率优化上迈出关键一步。 紧接着 2 月,DeepSeekMath 在 MATH 基准测试中表现惊艳,成绩飙升至 51.7%,无限逼近 GPT-4 水平,数学推理能力实现质的飞跃,极大提升了模型在复杂数学问题求解上的可靠性与精准度。

腾讯自研深度思考模型“混元 T1”正式版上线元宝

腾讯元宝今日凌晨宣布完成了两大模型升级,同时接入腾讯自研的深度思考模型“混元 T1”正式版和 DeepSeek V3-0324 两个模型。

DeepSeek 为什么这么牛?幻方三大核心技术解密!

梁文峰说,我们缺的从来都不是钱,而是高端芯片。 幻方官网显示,2022年,公司员工“一只平凡的小猪”一个人就向捐助了1.38亿。 你说,这是钱的事吗?

通付盾AI Agent信任系统建设宣言:从AI到IA,得Agent者得天下

深耕行业十四年,知浪潮将至,当相向而行。 本文旨在结合企业思考,探讨AI新时代下的技术与应用趋势,对内秉初心以率众,对外纳灼见而求臻。 技术分水岭:算力、算法和数据的能效博弈随着大模型的快速更迭,人类已经走上了通往人工超级智能(ASI)的快车道。

手把手教你实现 Ollama+FastGPT+DeepSeek 打造个人专属 AI 知识库!

本文从零实现,基于Ollama、FastGPT、Deepseek在本地环境中打造属于自己的专业知识库,与大家分享~一、本地部署OllamaOllama是一个开源的本地大语言模型运行框架,专为在本地机器上便捷部署和运行大语言模型(LLM)而设计,无需依赖云端服务。 它提供简单易用的界面和优化的推理引擎,帮助我们轻松加载、管理和运行各种AI模型。 1.

DeepSeek 官方详解 V3 模型小版本升级:各项能力全面进阶

3月24日DeepSeek-V3模型小版本更新,今晚官方公布详情。新版在推理、前端开发、中文写作等能力提升,还优化搜索能力。模型开源,参数约660B。#DeepSeek-V3 #模型升级 #AI模型更新

李开复:DeepSeek 让中美 AI 核心技术差距缩小至只剩三个月

据路透社报道,AI 大模型公司零一万物 CEO 李开复表示,中国在某些 AI 核心技术方面与美国的差距已缩小至仅三个月,因为 DeepSeek 这样的公司已经找到了如何更高效地使用芯片和应用算法的方法。

DeepSeek-V3在Mac Studio上以每秒20个token的速度运行,这对OpenAI来说是一场噩梦

DeepSeek悄然发布了一款新的大型语言模型,已在AI行业掀起波澜——不仅因为其能力出众,更因其部署方式独特。 这款名为DeepSeek-V3-0324的641GB模型出现在AI仓库Hugging Face上,几乎没有进行任何宣传,延续了该公司一贯低调却影响深远的产品发布风格。 此次发布尤为引人注目的是该模型的MIT许可证——允许其免费用于商业用途——以及早期报告显示,它可以直接在消费级硬件上运行,特别是配置了M3 Ultra芯片的Apple Mac Studio。