DeepSeek“出圈”了,鹅厂人怎么看?

话题背景在人工智能领域,大型语言模型的快速发展引发了无数关于技术革新和未来趋势的讨论。 随着各类AI技术的不断突破,越来越多的创新模型开始崭露头角,而最近备受关注的DeepSeek更是成为了热议的焦点。 它被一些人称为“AI技术的重大突破”,甚至被认为是下一代人工智能发展的重要方向。

话题背景

在人工智能领域,大型语言模型的快速发展引发了无数关于技术革新和未来趋势的讨论。随着各类AI技术的不断突破,越来越多的创新模型开始崭露头角,而最近备受关注的DeepSeek更是成为了热议的焦点。它被一些人称为“AI技术的重大突破”,甚至被认为是下一代人工智能发展的重要方向。

今天,我们邀请了13位工程师同事,来一起聊聊DeepSeek。

DeepSeek“出圈”了,鹅厂人怎么看?

鹅厂工程师的看法

1.  foxy-后台开发工程师 

DeepSeek“出圈”了,鹅厂人怎么看?

机器可以思考了。通过强化学习算法实现了推理能力自主进化,而不是简单搜索整合。便宜了。用1/20的成本达到GPT4o效果,极大降低硬件成本。开源了。模型、代码、论文全部开源,做了 OpenAI 本应该做的。

DeepSeek“出圈”了,鹅厂人怎么看?

2. chao-应用开发工程师 

DeepSeek“出圈”了,鹅厂人怎么看?

强大之处在于可以正常交流,而不是有门槛。

(1) 拆解需求:按照 who+what+limit+format

  • 我是____身份 (我是谁)
  • 我要解决______问题  (我想解决什么问题)
  • 必须包含______细节  (回答需要什么,不要什么)
  • 想要______格式的结果 (按照什么格式输出) 

(2) 套用公式:按“身份→任务→细节→格式”顺序重组问题:  

“作为(身份),请(任务),要求(细节),用(格式)输出”  

(3) 迭代优化:一次问不准没关系,重点是要会继续补充细节:  

  • 增加:“请重点说明_____”  
  • 限制:“排除______情况”  
  • 调整:“改为______风格”  

(4) 注意:  

  • 一次不要问太多(3个),可以多聊几轮。
  • 不要让AI去猜,有什么直接说。但限制条件也不能太多(3个)。

DeepSeek“出圈”了,鹅厂人怎么看?

3.  bran-应用研究员 

DeepSeek“出圈”了,鹅厂人怎么看?

用户角度:1,体验免费方便,价格便宜2,回答问题质量高3,深度思考功能,可以直接看到模型的完整思考过程

社会公众角度:

  • 各项专业测评上和open ai提供的api基本持平,不一定“又赢了”,但肯定是不再“绝对地落后”了
  • 推出当天,英伟达市值蒸发4000多亿美金
  • open ai最近的英文回答中,中英文参杂概率大幅提升,基本坐实他们也在用deepseek的数据做训练,咱们也算做了点“技术输出”

DeepSeek“出圈”了,鹅厂人怎么看?

技术角度:

  • 业界首创,跑通了完全的大规模强化学习,意味着不再需要大量人工清洗的数据和复杂的微调,整体训练非常简洁优雅(基本上给大部份大模型公司指明了方向)
  • 第一个跑通的千亿参数FP8大模型。FP8代表所有模型参数都用8bit来存,其他家都是32bit或者16bit来存一个模型参数,这一下就节省了非常多显存(属于大家都知道要这样优化,但工程和技术上的坑填不动,最后deepseek第一个实现了)
  • 使用他们的大模型数据,再去训练“小模型”(其实是参数量相对较小的大模型),可以让“小模型”效果提升非常多。最终导致现在可以用一块2000多块的英伟达3060本地部署一个相当不错的模型。这下很多有台式机的用户都能体验本地部署模型的乐趣了(独乐乐不如众乐乐,台式机可比数据中心多太多了)

其他的补充点:

  • 防杠:上文说的“业界首创”和“第一个跑通”,不包括open ai。因为open ai非常close,无法评估他们做到什么程度
  • 一点猜测:deepseek最近狂招硬件工程师,加上他们在模型训练过程中已经体现出了对英伟达原生api的爆改能力,推测他们有机会在国产gpu上做点文章
  • talk is cheap,show you the paper: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

DeepSeek“出圈”了,鹅厂人怎么看?

4.  young-应用开发工程师 

DeepSeek“出圈”了,鹅厂人怎么看?

最大的核心是 RL策略创新 + 减少人工干预。可预见未来如果AI算法找对了优化策略,将强大到可怕

DeepSeek“出圈”了,鹅厂人怎么看?

5.  bill-产品运营 

DeepSeek“出圈”了,鹅厂人怎么看?

我不是技术人,但是deepseek启示我的是要相信自己的第一判断。之前关于大模型,很多人告诉我,包括技术专家告诉我的都是“这是一个黑箱”,输出的逻辑和结果不可控。我从一开始就质疑这不不合理。但是被技术大拿教育说就是这样的,所以也没有太多挑战。可是deepseek出来以后,它不仅不是黑箱,而且非常详细的先说明自己的决策过程,再给你结论。这就使得整个决策过程可以看到,用户也可根据deepseek的逻辑思考过程,给出更细的要求,从而输出更适合的结论。

有人说deepseek是回归了人类的思考逻辑。我的启示是:为什么我没有坚持大模型应该回归了人类的思考逻辑?认为黑箱不合理的肯定我一个人,但为什么大多都没有提出它的不合理性,知道deepseek去改变了它?所以,人还是要回归最基础的需求,要敢于相信和坚持自己的第一判断。

DeepSeek“出圈”了,鹅厂人怎么看?

6. lovise-前端开发工程师 

DeepSeek“出圈”了,鹅厂人怎么看?

主要还是找到一条低成本从gpt4到o1的技术路线(通过强化学习),并且还开源了,大家都能复现。而且这条路线还很有前景,模型现在能自主领悟新技能(有点像alpha zero,啥人类下棋方法都不用教,最后自己就能领悟并超越人类),因此继续堆算力训练,优化算法,模型能力还能继续进化。

DeepSeek“出圈”了,鹅厂人怎么看?

7. zihao-运营开发工程师 

DeepSeek“出圈”了,鹅厂人怎么看?

个人理解是ds与gpt的区别在于,它能让更多的人参与进来迭代更新,降低了入门门槛。ds出来前,训练一个大模型的成本是基本只有一线的公司能负担得起的,其他中小公司和大学的实验室根本没有碰的可能,更别说在原有的基础上对算法进行优化(因为你没有足够用于验证的算力),而且就算你有足够的算力,你只能在最初开源的gpt上慢慢迭代优化(后面open ai变成了close ai),基本不可能优于最新的gpt,相当于浪费投入,先发优势上open ai已完胜。

ds一方面降低了算力成本,而且又开源,相当于把open ai的两条护城河给填了,大家都能来入局,而且因为开源,我能基于当前开源项目的最新特性进行优化,大家一起搭桥总比一个人摸着石头过河好,能少走很多弯路。

DeepSeek“出圈”了,鹅厂人怎么看?

8. alexzx-后台开发工程师 

DeepSeek“出圈”了,鹅厂人怎么看?

因为便宜、好用、开源,而且性能接近gpt o1。我去年年底就开始试着用ds,目前大部分情况下都可以平替gpt,自己部署的成本也不高。

DeepSeek“出圈”了,鹅厂人怎么看?

9. frank-后台策略安全

DeepSeek“出圈”了,鹅厂人怎么看?

推理和思考的过程相比以前AI黑盒子,更好用了,从他的思维过程,我反而能学到一些东西,另外推理出来的结果,确实准,好用,特别是专业领域的问题

DeepSeek“出圈”了,鹅厂人怎么看?

10.   tylert-游戏运营 

DeepSeek“出圈”了,鹅厂人怎么看?

客观来说模型方面感觉没啥提高的,就是打平而已,但成本效率确实大大提高了,符合降本增效的前提,就好比你原来需要20个人团队做的事情,DS现在只需要1个人就能做得差不多~

DeepSeek“出圈”了,鹅厂人怎么看?

11. leo-应用研究员

DeepSeek“出圈”了,鹅厂人怎么看?

单纯看论文,有点哗众取宠的意思🐶,Deepseek的论文中也有类似的工作。

对于算力的需求,有个Jevons悖论,讲的是第一次工业革命期间,蒸汽机效率的提高不仅没有降低煤炭总量的消耗,反而有所提升。因为消费总量 = 消费量 * 单价。只有足够便宜,才有机会普及。

因此,降本无论是对技术发展、生态繁荣,还是对英伟达本身,我觉得都是利好。只有更多的玩家能上牌桌,牌局才能更精彩。

但相比于其他开源模型,DS的技术突破主要是算法+工程的优化(以DeepSeek-R1-Zero为例)

主要在以下几方面:

  • SFT-FREE:区别于其他大模型需要进行SFT,DS首次实现纯粹依赖强化学习进行训练。
  • 可拓展的强化学习设计:采用rule-based的方法设计奖励信号,确保RL训练的可拓展性(scaling)。
  • 高效的参数储存优化:采取FP8的参数储存方法,大幅度降低了缓存成本。

除了技术创新外,我觉得DS出现所代表的更深远的意义是,它证明了国内团队已经具备组织高密度人才进行前沿创新的能力。

DeepSeek“出圈”了,鹅厂人怎么看?

12.  joliph-客户端安全 

DeepSeek“出圈”了,鹅厂人怎么看?

可以从官方价格和其他独立部署的价格就知道它的infra的优势有多大了。

13.  leicong-技术产品 

DeepSeek“出圈”了,鹅厂人怎么看?

deepseek也有好多版本,比如v3、R1、R1 zero,就V3而言,感觉更多是工程上的优势,也就不管是注意力的计算还是后面的FNN,很多计算上的细节做了工程上的优化,包括精简、压缩、分片、就近等不同的工程化策略,最终达到了对算力要求从量变到质变的效果

DeepSeek“出圈”了,鹅厂人怎么看?

相关资讯

DeepSeek-R1详细解读!

DeepSeek-R1爆火,今天来详细看下。 论文地址::::现有LLMs在推理任务上的改进主要依赖监督微调(SFT)和后训练(Post-Training)方法,但这些方法需要大量人工标注数据且成本高昂。 OpenAI的o1系列模型虽通过扩展推理链(Chain-of-Thought, CoT)提升了性能,但其测试时扩展仍存在挑战。

服务器总是繁忙?DeepSeek-R1本地部署图文版教程来啦

最近一段时间,国产大模型DeepSeek-R1在市场上迅速崛起,成为了众多用户的新宠。 然而,伴随其热度与用户量的急剧攀升,由此导致服务器繁忙的状况频繁出现。 为了摆脱服务器繁忙的困扰,本地部署DeepSeek-R1成为了一个绝佳的解决方案,这不仅减少了对网络连接的依赖,还能增强数据安全性。

OpenAI首席研究官:DeepSeek独立发现了o1的一些核心思路,奥特曼、LeCun纷纷置评

成本打下来了,需求更多才对? 春节这几天,国内外 AI 圈都被 DeepSeek 刷了屏。 英伟达的股市震荡更是让全世界看得目瞪口呆(参见《英伟达市值蒸发近 6000 亿美元,而 DeepSeek 刚刚又开源新模型》)。