华为昇腾适配支持 DeepSeek-R1 复现项目 Open R1

2025-02-11 05:58

华为技术有限公司今日宣布，MindSpeed 支持 DeepSeek V3 预训练、微调，同时昇腾还适配支持 DeepSeek-R1 复现项目 Open R1。

感谢华为技术有限公司今日宣布，MindSpeed 支持 DeepSeek V3 预训练、微调，同时昇腾还适配支持 DeepSeek-R1 复现项目 Open R1。

据介绍，MindSpeed 现已支持 DeepSeek V3 模型预训练与微调。所使用的并行配置与模型参数如下：

DeepSeek 团队通过知识蒸馏，实现了较小的模型也能具备较强的推理能力。华为称已基于昇腾完成蒸馏流程验证，并表示经过蒸馏后的 Qwen 模型在对应领域上的评分获得显著提升，开发者可基于此参考，完成自定义蒸馏模型训练。

另外，华为昇腾还适配完成 Open R1 项目的重要步骤：打通 Open R1-Zero 的 GRPO 流程，同时支持通过 vLLM 等生态库实现训练过程中的数据生成。

据介绍，Open R1 项目是 Hugging Face 官方开源的对 DeepSeek-R1 模型流程进行完全开放式复现的项目，是当前主流复现项目之一，当前已有 18K+ star 数，其目标是构建 DeekSeek-R1 训练流程的缺失部分。

DeepSeek 系列新模型上线华为昇腾社区：一键获取，开箱即用

据华为官方公众号，2 月 4 日，DeepSeek-R1、DeepSeek-V3、DeepSeek-V2、Janus-Pro 正式上线昇腾社区，支持一键获取 DeepSeek 系列模型，支持昇腾硬件平台上开箱即用，推理快速部署。

2/5/2025 3:40:10 PM

清源

从DeepSeek-V3发布谈大模型的技术突破与未来机遇

在AI技术日新月异的今天，大型语言模型已成为推动AI发展的重要力量。 2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3。这款开源模型采用了高达6710亿参数的混合专家（MoE）架构，每秒能够处理60个token，比V2快了3倍。

1/3/2025 7:38:33 PM

张诚

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

DeepSeek 在海内外搅起的惊涛巨浪，余波仍在汹涌。当中国大模型撕开硅谷的防线之后，在预设中总是落后半拍的中国 AI 军团，这次竟完成了一次反向技术输出，引发了全球范围内复现 DeepSeek 的热潮。 DeepSeek-R1 虽然开源，但也没有完全开源，训练数据、训练脚本等关键信息并未完全公布。

2/11/2025 2:38:00 PM

机器之心

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略基于 DeepSeek GRPO 的 1.5B Rust 代码生成模型训练实战 DeepSeek R1 vs OpenAI O3 vs Gemini 2 Pro—谁最适合做客服主管的AI 模态编码器|CLIP详细解读 50组多风格提示词，全面测评Midjourney V7生图效果！斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习 GPT 开源微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 神器推荐 LLaMA 大语言模型具身智能字节跳动 Claude 算力安全应用视频生成科技视觉干货合集亚马逊 2024 AGI 特斯拉 DeepMind 架构

顶部

华为昇腾适配支持 DeepSeek-R1 复现项目 Open R1

相关资讯

DeepSeek 系列新模型上线华为昇腾社区：一键获取，开箱即用

从DeepSeek-V3发布谈大模型的技术突破与未来机遇

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了