别TM浪费算力了，这样才能最大限度发挥deepseek的潜能 - MOE

2025-02-10 09:00

最近几周自学deepseek原理应用实践，一些成果，和大家分享：小众关心的，deepseek核心技术原理；大众关心的，提示词要怎么写；今天和大家聊聊，deepseek的核心机制之一的混合专家MOE。什么是混合专家MOE？混合专家，Miture of Experts，该模型思路不再追求大而全，转而追求多而专精。

最近几周自学deepseek原理+应用+实践，一些成果，和大家分享：

小众关心的，deepseek核心技术原理；
大众关心的，提示词要怎么写；

今天和大家聊聊，deepseek的核心机制之一的混合专家MOE。

别TM浪费算力了，这样才能最大限度发挥deepseek的潜能 - MOE

什么是混合专家MOE？

别TM浪费算力了，这样才能最大限度发挥deepseek的潜能 - MOE

混合专家，Miture of Experts，该模型思路不再追求大而全，转而追求多而专精。它会将任务动态路由给各个领域专家，并将各个领域专家的输出进行组合。

比较抽象，举个容易理解的例子。

大而全模型：全栈工程师。
混合专家模型：Java，FE，QA，DBA，OP工程师...

大而全的模型有什么不足？

训练时间长：培养一个“全栈”工程师太久了；
计算性能差：面对一个产品需求，做设计编码上线周期长；
回复不深入：什么都懂，但都不精，浅尝辄止；

而混合专家模型则能够很好的解决上述几个问题：

培养一个Java工程师的周期更短；
需求评审完之后，Java，FE，QA... 多个专家可以并行设计编码上线；
Java，FE，QA专人专岗，专业性高；

有了MOE之后，对LLM的架构有怎么样的影响？

(1) 学习与训练阶段

之前：追求多参数

如今：训练多专家Expert（例如：1万个专家，每个专家单一职责SRP）

(2) 计算与执行阶段

之前：收到提示词input，一上来就干

如今：

先判断，需要几个专家（分类任务，很容易）；
动态路由（需要一个门控网络作为协调者，Gating Network），分发任务给专家，专家并行计算；
组合专家输出，协调者再统筹输出；

input[提示词] --> 专家分类{专家E1E2...En}

门控网络 --> E1E2...En

E1 --> O1[输出1]

E1 --> O2[输出2]

...

En --> On[输出n]

O1O2...On --> 统筹输出[output]

MOE对我们写提示词，获取更佳的回答质量有什么启示呢？

如果觉得AI回复缺乏深度，可以显性告诉它，你希望它扮演什么专家角色来回复问题。

画外音：模型分类出来的专家角色不一定100%准确。

(1) bad case：如何设计高并发高可用系统？

这样的提示词，你会得到一个泛泛而谈的回答。

(2) good case：假设你是由以下专家组成的团队：

分布式领域系统架构师
电商领域业务架构师
资深DBA

请分别从各自领域提出5项技术选型建议，并组合设计方案满足每秒10万次交易，数据满足最终一致性，故障恢复时间小于30秒的系统。

节省训练资源，缩短回复时间，提升回答质量，多个专家还能够交叉验证（大而全模型可能过拟合），deepseek创新性使用MOE之后，很快就得到了业界的广泛认可与复制。

deepseek，流弊！

总结

MOE是deepseek的核心创新应用（之一）；
从此大模型从“大而全”转向“多而精”；
提示词通过显性告诉deepseek专家角色，能够最大化发挥MOE的潜力；

一切的一切，提示词只有适配了AI的认知模式，才能最高效的发挥最大的作用。

知其然，知其所以然。

思路比结论更重要。

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

开源社区有福了。说到做到，马斯克承诺的开源版大模型 Grok 终于来了！今天凌晨，马斯克旗下大模型公司 xAI 宣布正式开源 3140 亿参数的混合专家（MoE）模型「Grok-1」，以及该模型的权重和网络架构。这也使得Grok-1成为当前参数量最大的开源大语言模型。封面图根据 Grok 提示使用 Midjourney 生成的：神经网络的 3D 插图，具有透明节点和发光连接，以不同粗细和颜色的连接线展示不同的权重。这个时候，马斯克当然不会忘了嘲讽 OpenAI 一番，「我们想了解更多 OpenAI

3/18/2024 2:23:00 PM

机器之心

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。

10/19/2024 9:20:00 PM

机器之心

字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量

字节跳动加入了快速发展的AI推理模型竞争，推出了专注于科学、技术、数学和工程（STEM）领域的新型大语言模型Seed-Thinking-v1.5。这款采用混合专家(MoE)架构的模型在多项基准测试中表现优异，甚至在某些指标上超越了行业巨头的产品。推理AI的演进历程推理AI竞赛始于2024年9月OpenAI的o1模型发布，而后在2025年1月DeepSeek R1的推出后真正加速。

4/14/2025 10:01:18 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

别TM浪费算力了，这样才能最大限度发挥deepseek的潜能 - MOE

什么是混合专家MOE？

大而全的模型有什么不足？

有了MOE之后，对LLM的架构有怎么样的影响？

MOE对我们写提示词，获取更佳的回答质量有什么启示呢？

总结

相关资讯

马斯克开源Grok-1：3140亿参数迄今最大，权重架构全开放，磁力下载

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

字节跳动推出Seed-Thinking-v1.5:推理AI竞赛中的新力量