我们正在见证历史:DeepSeek 项目在 GitHub 上的 Star 量超过了 OpenAI。
截至本周五下午两点,DeepSeek-V3 的 Star 量已达 7.77 万,超越 OpenAI 最热门项目。
DeepSeek-V3:性能标杆的 MoE 大模型
2023 年 12 月 26 日,DeepSeek AI 发布了其最新的 MoE(混合专家)大语言模型 DeepSeek-V3,成为开源 AI 领域的新标杆,引发全球热议。
该模型采用动态注意力机制(Dynamic Attention Mechanism),有效优化文本生成质量。其 6710 亿参数的 MoE 架构仅激活 370 亿参数,大幅降低计算成本。
训练成本仅为同类闭源模型的 1/20,总计花费 278.8 万 H800 GPU 小时(训练成本 557.6 万美元),远低于 Llama 3 的 3930 万 H100 GPU 小时。
DeepSeek-R1:强化学习驱动 AI 革命
2024 年 1 月 23 日,DeepSeek 在 V3 的基础上,结合强化学习(Reinforcement Learning),发布了 DeepSeek-R1,彻底改变了 AI 研究方向。
DeepSeek R1 性能媲美 OpenAI o1,且无需大量监督微调,仅靠强化学习就能赋予 LLM 强推理能力,引起 AI 业界广泛关注。
DeepSeek 生态扩展:云平台纷纷接入
虽然 OpenAI 未开源其最新基础模型,目前其热门项目仍是 Whisper 语音识别和 openai-cookbook。
其他开源大模型 Star 数对比:
- Llama 最高 5.75 万 Star
- 阿里云 Qwen2.5:1.49 万 Star
- 零一万物 Yi:7800 Star
全球 AI 生态的未来:DeepSeek 的影响
DeepSeek-V3 和 R1 促进了 AI 研究的新方向,尤其是强化学习方法 GRPO 的应用前景广受关注。
目前,DeepSeek 已被多家云服务提供商集成:
- 国内:阿里云、华为云、腾讯云、百度智能云、360 数字安全等
- 海外:英伟达、亚马逊、微软云服务
随着 DeepSeek 开源生态的扩大,我们或将见证生成式 AI 更快的发展!