星辰与代码:DeepSeek的发展历程

技术突破阶段2024 年,DeepSeek 强势开启生态扩张与技术爆发的新纪元,成为全球 AI 领域瞩目的焦点。 年初 1 月,DeepSeek 便以 DeepSeek-MoE 震撼登场,创新性架构设计以仅 60% 的计算量损耗,成功超越 Llama 2-7B 性能,为后续技术突破奠定坚实基础,在模型效率优化上迈出关键一步。 紧接着 2 月,DeepSeekMath 在 MATH 基准测试中表现惊艳,成绩飙升至 51.7%,无限逼近 GPT-4 水平,数学推理能力实现质的飞跃,极大提升了模型在复杂数学问题求解上的可靠性与精准度。

技术突破阶段

2024 年,DeepSeek 强势开启生态扩张与技术爆发的新纪元,成为全球 AI 领域瞩目的焦点。

年初 1 月,DeepSeek 便以 DeepSeek-MoE 震撼登场,创新性架构设计以仅 60% 的计算量损耗,成功超越 Llama 2-7B 性能,为后续技术突破奠定坚实基础,在模型效率优化上迈出关键一步。

紧接着 2 月,DeepSeekMath 在 MATH 基准测试中表现惊艳,成绩飙升至 51.7%,无限逼近 GPT-4 水平,数学推理能力实现质的飞跃,极大提升了模型在复杂数学问题求解上的可靠性与精准度。

3 月,DeepSeek 布局多模态领域,VL 系列研发正式启动,为后续多模态融合发展埋下伏笔;5 月,经济型 MoE 架构 DeepSeek-V2 重磅推出,其 API 定价仅为 GPT-4 Turbo 的 1%,以超高性价比打破行业价格壁垒,在保持模型高性能的同时,让更多开发者和企业能够轻松使用,迅速扩大了用户群体和应用场景。

步入 6 月,DeepSeek-Coder-V2 横空出世,在编程任务中与 GPT4-Turbo 全面匹敌,助力开发者高效完成代码编写、调试等工作,显著提升编程效率与质量,成为开发者手中的得力工具。

图片图片

9 月,DeepSeek 再度发力,成功整合 Coder 与 Chat 模型,升级版 DeepSeek V2.5 震撼上线,实现系统融合,进一步优化用户交互体验,让模型在自然语言处理与代码生成等多方面协同工作,为用户提供更加全面、智能的服务。

在这一年里,DeepSeek 凭借一系列技术突破与创新,不仅拓宽了自身生态版图,更推动了整个 AI 行业向低成本、高效率方向发展,为全球 AI 发展注入强劲动力,引领行业迈向新的发展阶段。

多模态与全球化布局

2024 年第四季度至 2025 年第一季度,DeepSeek 以令人惊叹的速度实现了跨越式发展,在 AI 领域掀起了阵阵波澜。

2024 年 11 月,DeepSeek 推出首个推理专用模型 DeepSeek - R1 - Lite。这一创新性举措,犹如在推理模型赛道上按下了加速键,为后续更强大模型的推出奠定了坚实基础,也为专注于推理任务的开发者和研究人员提供了全新且高效的工具。

紧接着在 12 月,DeepSeek 乘胜追击,发布旗舰模型 DeepSeek - V3。该模型基于 2048 块 H800 GPU 集群,历经 55 天的精心打磨完成训练,训练成本约 557.6 万美元。其性能表现卓越,在众多开源模型中脱颖而出,成功超越 Qwen2.5 - 72B 等开源模型,无论是在复杂的知识问答、代码生成,还是多语言处理等任务中,都展现出了顶尖的实力,为开源模型领域树立了新的标杆。

步入 2025 年 1 月,DeepSeek 的发展势头愈发强劲。DeepSeek - R1 开源模型成功实现与 OpenAI o1 正式版性能对齐,这一成果不仅证明了 DeepSeek 在技术研发上的深厚底蕴,更意味着开发者和用户能够在开源的生态下,享受到与行业顶尖水平相当的模型服务。同月,DeepSeek 智能助手强势登顶美区 App Store 榜首,其简洁高效的交互体验、强大精准的回答能力,吸引了全球用户的目光,成为了用户在智能交互领域的首选应用之一。此外,DeepSeek 还推出了多模态系统 Janus - Pro,进一步拓展了 AI 应用的边界,实现了文本、图像、音频等多种信息模态的融合处理,为用户带来了更加丰富多元的交互体验。

图片图片

到了 2025 年 2 月,在经过一段时间的市场验证,收集大量用户反馈并进行深度分析后,DeepSeek 对 API 定价策略做出调整。输入 token 价格上调 100%,输出 token 价格上调 300%。此次价格调整,是基于模型性能提升、服务优化以及市场供需等多方面因素综合考量的结果,旨在为用户持续提供高质量、稳定且不断进化的 AI 服务,同时也确保 DeepSeek 在技术研发与市场运营之间找到良好的平衡,以推动自身在 AI 领域的持续创新与发展。

在这短短几个月的时间里,DeepSeek 凭借一系列具有开创性的成果,展示了其在 AI 领域的强大实力与无限潜力,也为整个行业的发展注入了新的活力与动力。

DeepSeek模型发展

另外DeepSeek 系列在技术创新的道路上也是不断发展,从最初的DeepSeek LLM、DeepSeekMoE、DeepSeekMath,再到DeepSeek V2、DeepSeek V3 以及最新的 DeepSeek R1

图片图片

DeepSeek LLM

DeepSeek LLM 属于密集的LLM模型,沿用了 LLaMA 的部分设计,如采用Pre-Norm结构、RMSNorm函数、SwiGLU激活函数和Rotary Embedding位置编码。

关键技术 :

  1. 基于 Transformer 架构,采用分组查询注意力(GQA)优化推理成本。
  2. 支持多步学习率调度器,提升训练效率。
  3. 在预训练和对齐(监督微调与 DPO)方面进行了创新。
  4. 缩放定律研究 :提出了新的最优模型/数据扩展-缩放分配策略。

DeepSeek MoE

DeepSeekMoE 是一种创新的MoE架构,专门设计用于实现终极专家专业化(expert specialization)。

关键技术 :

  1. 细粒度专家分割 (Fine-Grained Expert Segmentation):将专家细分为更细的粒度,以实现更高的专家专业化和更准确的知识获取。
  2. 共享专家隔离 (Shared Expert Isolation):隔离一些共享专家以减轻路由专家之间的知识冗余。
  3. 负载均衡的辅助损失 (Auxiliary Loss for Load Balance):通过专家级平衡损失和设备级平衡损失,缓解模型训练时可能出现负载不均衡问题。

DeepSeek Math

DeepSeekMath 是数学推理模型。

关键技术 :

  1. 数学预训练:代码训练可提升数学推理能力。
  2. 监督微调:构建多格式数学指令微调数据集。
  3. 强化学习:提出 GRPO(Group Relative Policy Optimization)算法,通过组分数估计基线,减少训练资源消耗。

DeepSeek V2

DeepSeek V2 是一款 经济高效的大规模MoE模型,优化推理与训练成本。

关键技术:

  1. DeepseekMoE :把 FFN 的结构改成 DeepseekMoE,是对传统 MoE 结构的改进。
  2. 多头潜在注意力(MLA):利用低秩键值联合压缩,来降低推理时的KV缓存开销。
  3. 多Token预测(MTP):预测多步依赖,加速推理生成。
  4. 无辅助损失的负载均衡策略 :引入专家级均衡损失,设备级平衡损失,通信平衡损失,避免负载均衡带来的辅助损失。

DeepSeek V3

整体思路:基于DeepSeek-V2,引入新的架构和训练策略,进一步提升模型的性能,同时降低训练成本。在模型架构、训练方法、知识蒸馏与能力提升、模型性能与成本等方面进行创新。

关键技术:

  1. 无辅助损失的负载均衡策略 (ALFLB):通过引入偏置项动态调整专家负载。
  2. Token预测 训练目标(MTP):在每个位置预测多个未来的 token,提高模型的数据效率。
  3. 高效的训练框架:FP8 混合精度训练框架,通过 DualPipe 算法和优化的通信内核,实现了近乎零开销的跨节点通信。
  4. 知识蒸馏 :从 DeepSeek - R1 系列模型中蒸馏推理能力,将其融入 DeepSeek - V3,提升了模型的推理性能。

DeepSeek R1

定位:强化学习驱动的推理模型,颠覆传统训练流程。

关键技术:

  1. 零监督微调(Zero-SFT):完全依赖强化学习(RL),成本降至OpenAI O1的3%-5%18。
  2. 组相对策略优化(GRPO):替代PPO算法,无需价值模型,降低计算开销89。
  3. 双重奖励系统:结合准确性奖励与格式奖励,提升结构化输出能力8。

时代的需求

在当下,中美技术竞争态势愈发激烈,美国对芯片出口实施严格限制,这使得国内在大模型技术领域突破国外垄断的需求迫在眉睫。在此关键节点,DeepSeek团队毅然选择成立一家独立的人工智能基础技术研究公司。其目光聚焦于低成本、高性能模型的研发,这一举措意义非凡。

一方面,它能够充分满足国内市场对契合中文语境的AI需求,为国内用户带来更贴合使用习惯、更懂中国文化和语言特色的AI服务;另一方面,它也为国产大模型产业树立起标杆,激励更多本土企业投身大模型研发,打破国外技术在该领域的长期主导局面,推动国产大模型产业朝着自主、创新、高效的方向大步迈进 。

相关资讯

真·ChatGPT平替:无需显卡,MacBook、树莓派就能运行LLaMA

Meta 在上个月末发布了一系列开源大模型 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。由于模型参数量较少,只需单张显卡即可运行,LLaMA 因此被称为 ChatGPT 的平替。发布以来,已有多位开发者尝试在自己的设备上运行 LLaMA 模型,并分享经验。

刚刚,Llama 3.2 来了!支持图像推理,还有可在手机上运行的版本

今天凌晨,大新闻不断。一边是 OpenAI 的高层又又又动荡了,另一边被誉为「真・Open AI」的 Meta 对 Llama 模型来了一波大更新:不仅推出了支持图像推理任务的新一代 Llama 11B 和 90B 模型,还发布了可在边缘和移动设备上的运行的轻量级模型 Llama 3.2 1B 和 3B。不仅如此,Meta 还正式发布了 Llama Stack Distribution,其可将多个 API 提供商打包在一起以便模型方便地调用各种工具或外部模型。此外,他们还发布了最新的安全保障措施。真・Open AI

硅基流动:下线部分未备案模型,用户请注意迁移

近日,硅基流动在其更新公告中宣布,为了进一步优化资源配置,提供更先进、优质、合规的技术服务,将于2025年3月6日对部分模型进行下线处理。 此次下线的模型主要为未经审查的国外模型,特别是生图模型,仅保留KColor。 请用户注意,如果之前接入了公告中提及的模型,务必在3月6日前完成迁移。