一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

开源大模型领域，又迎来一位强有力的竞争者。近日，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2，主打训练成本更低、推理更加高效。项目地址：：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language ModelDeepSeek-V2 参数量达 236B，其中每个 token 激活 21B 参数，支持 128K token 的上下文长度。与

开源大模型领域，又迎来一位强有力的竞争者。

近日，探索通用人工智能（AGI）本质的 DeepSeek AI 公司开源了一款强大的混合专家 (MoE) 语言模型 DeepSeek-V2，主打训练成本更低、推理更加高效。

项目地址：https://github.com/deepseek-ai/DeepSeek-V2

论文标题：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

DeepSeek-V2 参数量达 236B，其中每个 token 激活 21B 参数，支持 128K token 的上下文长度。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

与 DeepSeek 67B （该模型去年上线）比拟，DeepSeek-V2 实现了更强的机能，同时节省了 42.5% 的训练成本，减少了 93.3% 的 KV 缓存，并将最大生成吞吐量提升 5.76 倍。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

DeepSeek-V2 的模型表现非常亮眼：在 AlignBench 基准上超过 GPT-4，接近 GPT-4- turbo；在 MT-Bench 中与 LLaMA3-70B 相媲美，并优于 Mixtral 8x22B；擅长数学、代码和推理。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

下面是 DeepSeek-V2 与 LLaMA 3 70B、Mixtral 8x22B、DeepSeek V1 (Dense-67B) 对比结果：

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

在大海捞针（NEEDLE IN A HAYSTACK）任务中，DeepSeek-V2 在上下文窗口达 128K 时表现良好。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

在 LiveCodeBench (0901-0401「一个专为实时编码挑战而设计的基准」) 上，DeepSeek-V2 获得了较高的 Pass@1 分数。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

DeepSeek-V2 与不同模型在华文推理、华文语言上的表现：

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

在价格方面，DeepSeek-V2 API 的定价如下：每百万 token 输入 0.14 美元（约 1 元人民币）、输出 0.28 美元（约 2 元人民币，32K 上下文），与 GPT-4-Turbo 定价比拟，价格仅为后者的近百分之一。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

模型介绍

DeepSeek-V2 采用 Transformer 架构，其中每个 Transformer 块由一个注意力模块和一个前馈网络（FFN）组成。然而，对于注意力模块和 FFN，钻研团队设计并采用了创新的架构。

一方面，该钻研设计了 MLA，利用低秩键值联合压缩来消除推理时键值缓存的瓶颈，从而支持高效推理。

另一方面，对于 FFN，该钻研采用高机能 MoE 架构 —— DeepSeekMoE，以经济的成本训练强大的模型。

在一些细节上，DeepSeek-V2 遵循 DeepSeek 67B 的设置，DeepSeek-V2 的架构如下图所示：

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

钻研团队构建了由 8.1T token 组成的高质量、多源预训练语料库。与 DeepSeek 67B 使用的语料库比拟，该语料库的数据量特别是华文数据量更大，数据质量更高。

该钻研首先在完整的预训练语料库上预训练 DeepSeek-V2，然后再收集 150 万个对话，涵盖数学、代码、写作、推理、安全等各个领域，以便为 DeepSeek-V2 Chat 执行监督微调（SFT）。最后，该钻研遵循 DeepSeekMath 采用群组相对策略优化 (GRPO) 进一步使模型与人类偏好保持一致。

DeepSeek-V2 基于高效且轻量级的框架 HAI-LLM 进行训练，采用 16-way zero-bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行。鉴于 DeepSeek-V2 的激活参数相对较少，并且重新计算部分算子以节省激活内存，无需张量并行即可训练，因此 DeepSeek-V2 减少了通信开销。

此外，为了进一步提高训练效率，该钻研将计算和通信重叠，并为专家之间的通信、路由算法和线性融合计算定制了更快的 CUDA 内核。

实验结果

该钻研在多种英文和华文基准上对 DeepSeek-V2 进行了评价，并将其与代表性的开源模型进行了比较。评价结果显示，即使只有 21B 个激活参数，DeepSeek-V2 仍然达到了开源模型中顶级的机能，成为最强的开源 MoE 语言模型。

值得注意的是，与基础版本比拟，DeepSeek-V2 Chat (SFT) 在 GSM8K、MATH 和 HumanEval 评价方面表现出显著改进。此外，DeepSeek-V2 Chat (RL) 进一步提升了数学和代码基准测试的机能。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

开放式生成的评价。钻研团队继续在开放式对话基准上对模型进行额外评价。其中对于英文开放式对话生成，他们使用 MT-Bench 和 AlpacaEval 2.0 作为基准。表 4 中的评价结果表明， DeepSeek-V2 Chat (RL) 相对于 DeepSeek-V2 Chat (SFT) 具有显著的机能优势。这一结果展示了强化学习训练在改进一致性方面的有效性。

与其他开源模型比拟，DeepSeek-V2 Chat (RL) 在两个基准的测试中均优于 Mistral 8x22B Instruct 和 Qwen1.5 72B Chat。与 LLaMA3 70B Instruct 比拟，DeepSeek-V2 Chat (RL) 在 MT-Bench 上展现出具有竞争力的机能，并在 AlpacaEval 2.0 上的表现明显胜出。

这些结果凸显出了 DeepSeek-V2 Chat (RL) 在生成高质量且上下文相关的响应方面具有强大机能，尤其是在基于指令的对话任务中。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo

钻研团队基于 AlignBench 评价了华文大模型社区的开放式生成能力。如表 5 所示，DeepSeek-V2 Chat (RL) 比 DeepSeek-V2 Chat (SFT) 稍有优势。尤其值得关注的是，DeepSeek-V2 Chat（SFT）大幅超越了所有开源华文模型，它在华文推理和语言方面都显著优于第二好的开源模型 Qwen1.5 72B Chat。

此外，DeepSeek-V2 Chat (SFT) 和 DeepSeek-V2 Chat (RL) 的机能均优于 GPT-4-0613 和 ERNIEBot 4.0，巩固了自家的模型在支持华文方面的顶级 LLM 地位。具体来说，DeepSeek-V2 Chat（RL）在华文理解方面表现出色，优于包括 GPT-4-Turbo-1106-Preview 在内的所有模型。不过 DeepSeek-V2 Chat（RL）的推理能力仍然落后于 Erniebot-4.0 和 GPT-4 等巨型模型。

一块钱100万token，超强MoE模型开源，机能直逼GPT-4-Turbo