DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

刚刚,DeepSeek-R1 跻身大模型竞技榜前三。以开源、便宜 20 倍的“身价”与 ChatGPT-4o(2024.11.20)并列。

“神秘东方力量”DeepSeek 给硅谷带来的影响,还在不断泛起涟漪 ——

刚刚,DeepSeek-R1 跻身大模型竞技榜前三。以开源、便宜 20 倍的“身价”与 ChatGPT-4o(2024.11.20)并列。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

在复杂提示词 / 风格控制榜单上,R1 位列第一。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

目前结果来看,它在各个维度上都保持领先。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

在衡量模型编程开发能力的 WebDev 分榜上,R1 位列第二,与闭源的 Claude 3.5 Sonnet 相差不到 40 分。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

网友实测体验表示,确实如此,R1 在 30 场 battle 中只输了 4、5 次。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

另一边,硅谷对 DeepSeek 的好奇不减。

毕竟,它可是一个“副业”

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

创始人梁文锋的中文采访更是被翻译成英文,“拿着放大镜”逐字认真阅读。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

他提出的观点也被总结成箴言,在互联网上流传。

真正的差距不是 1 年或 2 年,而在于是原创还是模仿。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

图灵奖得主 LeCun 也为 DeepSeek 做出中肯评价:

它代表了开源的力量。

这意味着,开源模型正在超越专有模型。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

值得一提的是,同为开源领域代表的 Meta 刚刚公布了 2025 年在 AI 领域的布局计划:650 亿美元,投算力、投人才

有爆料称,Meta 内部已经因为 DeepSeek 感到恐慌。

“他们让 OpenAI 一次又一次看清自己”

所以,在硅谷视角里,他们更关心 DeepSeek 的哪些信息?

最首要的莫过于,DeepSeek 如何赚钱。

挖到的信息有点出乎意料,或许 DeepSeek 还没想赚钱的事。

控股 DeepSeek 的是幻方量化,他们有一批顶级科学家,有充裕的算力资源,DeepSeek 其实是一个“副产物”。

在 2023 年末我就听说他们在做 DeepSeek。即使在当时的中国,还没有人把他们当回事。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

其次,为何 DeepSeek 能成功。梁文锋在 2023 年 5 月 2024 年 7 月接受暗涌的两次采访,也被老外扒出来了。

他们最关心的五个方面分别是:

1、创新第一性原则:与其他致力于快速商业化的中国 AI 公司不同,DeepSeek 专注于基础的 AGI 研究和创新。他们认为,中国必须从全球人工智能发展的“搭便车者”转变为“贡献者”。梁文锋说,创新不完全是商业驱动的,还需要好奇心和创造欲。

2、革命性架构:DeepSeek V2 中采用的新型 MLA(多头潜在注意力机制)架构,把显存占用降到了过去最常用的 MHA 架构的 5%-13%,实现了成本大幅降低。它的推理成本仅为 Llama 370B 的 1/7、GPT-4 Turbo 的 1/70。

这并不是为了挑起一场价格战 —— 他们只是在“成本上稍微有点利润”来定价。这种创新架构继续应用于 V3 和 R1 模型中。

3、独特的公司文化和人才战略:DeepSeek 保持着一个完全自下而上的组织结构,为研究人员提供无限的计算资源,优先看创造热情而不是证书。他们的突破性创新来自年轻的本土人才 —— 中国本土的应届毕业生和年轻技术人才,而非海外招聘。

4、致力于开源:尽管行业开始趋向于闭源模型(OpenAI 和 Mistral),DeepSeek 仍致力于开源,并认为开源对于建立一个强大的技术生态系统至关重要。梁文锋认为,在颠覆性技术面前,闭源形成的护城河是短暂的。

他们的真正价值在于建立一个具备创新能力的组织。

5、底层计算挑战:尽管拥有足够的资金和技术,DeepSeek 也面临来自底层计算的挑战和压力。目前公司还没有新的融资计划。梁文锋认为,面临的主要制约因素不是资金,而是高端算力的使用权,这些芯片对于训练先进 AI 模型至关重要。

除此之外,采访中的诸多细节也被网友认真品味。

原文中,梁文锋被问道:怎么看待做量化同时做大量基础研发,不烧钱吗?

他回答:一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。

海外网友感慨:

这帮人是一群有点理想化的“技术狂”,他们坚信自己能搞出通用人工智能(AGI),而且他们确实有这个资源和天赋。我真是太喜欢他们了!

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

此外也避免不了一些对比:

梁文锋展现出一种完全不同的心态,他们的成功当之无愧,我也很期待看到他们一次又一次让“OpenAI”认清自己。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

当然放眼 AI 领域的整体发展,能够看到 DeepSeek,对于所有人而言或许都是兴奋的。

尽管我忍不住觉得他们有点天真,毕竟在商业化上他们有点“自断后路”。但看到一个团队坚持理想并取得成功,确实让人觉得很欣慰。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

随着 R1 的惊艳亮相,DeepSeek 正在兑现自己所说的一切。拓宽技术边界、坚持开源、专注于技术开发……

那么,DeepSeek 是如何走到现在的呢?

用 AI 做量化,再回到 AI

梁文锋本硕均就读于浙江大学信息与电子工程学专业。

2008 年,梁文锋毕业,开始带领团队使用机器学习等技术探索全自动量化交易。

当时量化在国内还是个新鲜概念,能否赚钱是个未知数。2010 年沪深 300 股指期货推出,量化投资迎来春天。据公开信息显示,梁文锋团队正是乘上这股东风,很快自营资金超过 5 亿元。

与此同时,深度学习浪潮的齿轮开始转动,人工智能率先在硅谷爆发。

2015 年,梁文锋与校友共同创立幻方量化。仅仅 1 年后,他们就推出了旗下第一个 AI 模型,第一份由深度学习生成的交易仓位上线执行,使用 GPU 进行计算。

2017 年,幻方量化宣称实现投资策略全面 AI 化。

2018 年,幻方量化确立 AI 为公司的主要发展方向。

AI 加持下,幻方量化旗下基金回报率远超同期沪深 300 指数。2019 年,资金管理规模突破百亿元。

2019 年,梁文锋在当年的金牛奖颁奖仪式上,发表主题演讲《一名程序员眼里中国量化投资的未来》,这是他少见的公开演讲。

演讲全文的确充满“程序员视角”:

量化公司是没有基金经理的,基金经理就是一堆服务器。人来做投资决策的时候,它是一种艺术,要凭感觉。程序来决策的时候,它是一种科学,它有最优解。

也是这一年,幻方量化开始大规模布局 AI 算力,搭建起“萤火一号”集群。2021 年,“萤火二号”落成。这样的算力基建,成为如今 DeepSeek 快速奔跑的底层支撑。

2021 年,幻方量化成为国内首家突破千亿规模的的量化私募大厂,被称为国内量化私募“四大天王”之一。

值得一提的是,在幻方量化的官网上,AI 基础科学研究始终占据重要位置,包括在大模型浪潮前。

DeepSeek-R1 持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

幻方量化曾表示,多年以来,该公司坚持把营收的大部分投入人工智能领域,建设领先的 AI 硬件基础设施,进行大规模的研究,探索人类未知的奥秘。

我们相信几乎所有的创新都是从大胆尝试和点滴积累中孕育而来。

2023 年,幻方量化将下场做大模型的独立新组织命名为深度求索,并强调将专注于做真正人类级别的人工智能。

目标不是复刻 ChatGPT,而是研究和揭秘 AGI 的更多未知信息。

DeepSeek 的故事也就开始于这一刻。

一个 80 后程序员在搅动中国量化市场后,完成资金积累,组建起年轻蓬勃的团队,似乎又回到了他原本的起点、回到 AI,但产生的能量正在全球掀起骇浪。

One More Thing

值得一提的是,幻方量化还长期向慈善机构捐赠,官网披露公司员工“一只平凡的小猪”个人捐助 1.38 亿元,支持 15 家慈善机构的 23 个公益项目,在全国范围内帮助弱势群体,促进社会的公平和发展。

爆料消息称,这个员工就是梁文锋本人。

参考链接:

  • [1]https://www.reddit.com/r/LocalLLaMA/comments/1i6dlvj/inside_deepseeks_bold_mission_ceo_liang_wenfeng/

  • [2]https://www.threads.net/@yannlecun/post/DFNvN3euNEV?xmt=AQGzPcW8Rr7oXT6-rHIoKzBNL5x2PNnaprvJBL6uIhgoQA

  • [3]https://finance.eastmoney.com/a/202501223304127161.html

  • [4]https://mp.weixin.qq.com/s/r9zZaEgqAa_lml_fOEZmjg

本文来自微信公众号:量子位(ID:QbitAI),作者:明敏

相关资讯

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。

自有歪果仁为DeepSeek「辩经」:揭穿围绕DeepSeek的谣言

围绕 DeepSeek 的谣言实在太多了。 面对 DeepSeek R1 这个似乎「一夜之间」出现的先进大模型,全世界已经陷入了没日没夜的大讨论。 从它的模型能力是否真的先进,到是不是真的只用了 550W 进行训练,再到神秘的研究团队,每个角度都是话题。

一块钱100万token,超强MoE模型开源,性能直逼GPT-4-Turbo

开源大模型领域,又迎来一位强有力的竞争者。近日,探索通用人工智能(AGI)本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2,主打训练成本更低、推理更加高效。项目地址::DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelDeepSeek-V2 参数量达 236B,其中每个 token 激活 21B 参数,支持 128K token 的上下文长度。与