OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

成本打下来了,需求更多才对?

春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

简单来说,DeepSeek 最近发布的两个模型 —— DeepSeek-V3 和 DeepSeek-R1 以很低的成本获得了比肩 OpenAI 同类模型的性能。这引发了市场对 AI 硬件需求的担忧,投资者担心未来对英伟达高端芯片的需求可能会减少。

图片

与此同时,关于 DeepSeek 技术创新的讨论也非常多。很多人认为,DeepSeek 在硬件受限的条件下被逼走出了一条不同于 OpenAI 等狂堆算力的道路,用一系列技术创新来减少模型对算力的需求,同时获得性能提升。

这些成就得到了包括 Sam Altman 在内的 AI 领军人物的肯定。

图片

图片

随后,OpenAI 首席研究官 Mark Chen 也发了帖。他表示,DeepSeek 确实独立发现了一些 OpenAI o1 也在用的核心理念,不过,这并不代表 OpenAI 在算力上的高投入是不合理的。

帖子原文如下:   

恭喜 Deepseek 开发出了 o1 级别的推理模型!他们的研究论文表明,他们独立发现了一些我们在通往 o1 的路上发现的核心理念。

不过,我认为外界的反应有些过度夸大,特别是在成本方面的说法。拥有两个范式(预训练和推理)意味着我们可以在两个维度而不是一个维度(低成本)上优化某项能力。

但这也意味着我们有两个可以扩展的维度,我们打算在这两个维度上都积极投入算力!

随着蒸馏研究的日益成熟,我们也发现降低成本和提升能力愈发解耦。能够以更低成本(特别是在更高延迟的情况下)提供服务,并不意味着就能产生更好的能力。

我们将继续提升以更低成本提供模型服务的能力,但我们对我们的研究路线图保持乐观,并将继续专注于执行它。我们很高兴能在本季度和今年为大家带来更好的模型!

图片

短短几段话,Mark Chen 表达了好几层观点,我们让 DeepSeek-R1 来解读一下每段话的言外之意:  

图片

总之,和 Sam Altman 一样,Mark Chen 的发言也是在重塑外界对 OpenAI 的信心,并预告今年会带来更好的模型。

此外,OpenAI研究科学家Noam Brown也在努力弱化外界对OpenAI和DeepSeek的对比,但大家似乎并不买单。

图片

图片

图片

另外,Mark Chen 提到的「外界的反应有些过度夸大,特别是在成本方面的说法」这一点最近也被很多人讨论,尤其是「DeepSeek-v3 训练成本仅为 558 万美元」这一说法。其实,DeepSeek-v3 的技术报告原文是这么写的:「上述成本仅包括 DeepSeek-V3 的正式训练,不包括与架构、算法、数据相关的前期研究、消融实验的成本」。

图片

图灵奖得主、Meta AI 首席科学家 Yann LeCun 也认为市场对于 DeepSeek 的成本反应并不合理。不过,他是从推理的角度来看的。他指出,人们常常以为巨额投资主要用于训练更强大的模型,但实际上大部分钱都花在了让这些 AI 服务能够稳定地服务数十亿用户身上。而且随着 AI 能力的增强,维持服务运行的成本会变得更高,关键是要看用户是否愿意为这些增强的功能付费。 

图片

不少网友对 LeCun 的看法表示赞同,认为训练、推理成本更低的 AI 意味着这项技术能更快普及,从而创造更大的市场。

图片

图片

从这个角度来看,DeepSeek 在降低推理成本方面的努力似乎比降低训练成本的贡献更值得被关注。

图片

图片

针对可能即将到来的推理需求的激增,OpenAI、Meta 等都在做相应准备,比如旨在为 OpenAI 建设强大基础设施的「星际之门」项目(计划投资 5000 亿美元,但资金是否到位一直存疑)、Meta 新一年 600 亿美元的 AI 投资……

看来,2025 年,AI 市场的竞争依然激烈,DeepSeek 将在新一年走出多远还有待观察。

相关资讯

降低门槛,全平台应用,昇腾还会手把手地教你如何用AI

机器之心报道作者:泽南如何才能做到 AI 应用一次开发,全场景部署?昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等工具,可以让开发者实现「统一端边云,全端自动部署」,开启了机器学习开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与

院士、委员、专家共议“双智建设”:场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施,已经成为日常生活中随处可见的元素。2021年,住建部和工信部将16个城市列为双智试点城市,探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路?双智的未来该走向何处?这些问题成为当前双智行业关注的重点。近日,由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“,共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研

6年技术迭代,阿里全球化出海&合规的挑战和探索

全球化技术根植于全球化业务,经过五个阶段的演进,逐渐发展成为阿里巴巴集团内相对独立的技术体系。本文会首先重点讲解全球化基础设施层的挑战和技术实践。