摩尔线程重磅开源两大AI框架，国产GPU训练效率突破90%

2025-03-18 10:46

深度计算领域再添利器!摩尔线程今日重磅宣布，正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架，这一举措将为国产计算基础设施注入强劲动力。这两大框架通过深度融合FP8混合训练策略和高性能算子库，成功在国产全功能GPU上实现混合并行训练和推理，大幅提升了大模型训练的效率与稳定性。摩尔线程此次开源的MT-MegatronLM框架专为全功能GPU打造，支持dense模型、多模态模型及MoE（混合专家）模型的高效训练，满足了当前AI领域多样化的训练需求。

摩尔线程此次开源的MT-MegatronLM框架专为全功能GPU打造，支持dense模型、多模态模型及MoE（混合专家）模型的高效训练，满足了当前AI领域多样化的训练需求。而MT-TransformerEngine则主攻Transformer模型的训练与推理优化，通过算子融合、并行加速策略等技术，有效释放了摩尔线程全功能GPU高密度计算的潜力，显著提升了memory bound算子的效率。

这两大框架的技术突破主要体现在硬件适配与算法创新的深度协同。首先，它们支持多种类型模型的混合并行训练，能够灵活应对不同模型架构的复杂运算场景;其次，结合摩尔线程GPU原生支持的FP8混合精度训练策略，有效提升了训练效率;第三，通过高性能算子库muDNN与通信库MCCL的深度集成，系统性优化了计算密集型任务与多卡协同的通信开销;同时，结合开源Simumax库，能够自动进行并行策略搜索，并针对不同模型和加速环境最大化并行训练性能;此外，框架内置的rewind异常恢复机制可自动回滚至最近稳定节点继续训练，大幅提升了大规模训练的稳定性;最后，两个框架兼容GPU主流生态，既保障了现有生态的平滑迁移，也为开发者构建自有的AI技术栈提供了底层支撑。

在实际应用中，这两大框架的表现令人印象深刻。在全功能GPU集群上，Llama38B模型的训练任务利用FP8技术在loss几乎无损的情况下，MFU（模型吞吐利用率）竟能达到90%以上，相比原来提升了28%的训练速度。此外，摩尔线程已深度集成并开源对DeepSeek并行算法DualPipe的高效支持，MT-DualPipe完整接入MT-Megatron框架和MT-TransformerEngine框架后，成功实现了DeepSeek V3训练流程的完整复现，支持MLA、MTP及多种专家平衡策略。通过多种Transformer算子融合技术，这些框架显著提升了内存带宽利用率，有效缓解了memory bound瓶颈，进一步释放了国产GPU的硬件潜力。

摩尔线程表示将持续优化这两大框架，并计划引入一系列新功能:包括Dual Pipe/ZeroBubble并行策略以进一步降低气泡率，提升并行训练效率;多种独创的FP8优化策略以提高训练的性能和稳定性;异步checkpoint策略以提高训练过程中的容错能力和效率;优化后的重计算策略以减少计算和显存开销，提高训练速度;独创的容错训练算法以增强训练过程中的容错能力;以及集成摩尔线程FlashMLA和DeepGemm库以进一步释放摩尔线程GPU的算力和FP8计算能力，全面提升计算性能和效率。

这一系列技术突破与开源举措，不仅展示了摩尔线程在AI算力领域的实力，更为国产AI基础设施的发展开辟了新的可能性，让我们拭目以待其在AI模型训练领域带来的更多突破。

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

降低门槛，全平台应用，昇腾还会手把手地教你如何用AI

机器之心报道作者：泽南如何才能做到 AI 应用一次开发，全场景部署？昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上，覆盖数十个版本的操作系统，运行在从端侧到云计算集群的各种设备上。这样复杂的环境，对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流，昇腾发布的 CANN、MindSpore、MindX 等工具，可以让开发者实现「统一端边云，全端自动部署」，开启了机器学习开发的新时代，一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中，基础架构作为连接硬件与

3/19/2021 11:23:00 AM

机器之心

院士、委员、专家共议“双智建设”：场景驱动、标准协同、以人为本

智能网联汽车和智慧城市基础设施，已经成为日常生活中随处可见的元素。2021年，住建部和工信部将16个城市列为双智试点城市，探索智慧城市基础设施与智能网联汽车协同发展。试点城市提供了哪些思路？双智的未来该走向何处？这些问题成为当前双智行业关注的重点。近日，由腾讯智慧交通、腾讯研究院联合举办了“双智建设专家研讨会“，共同探讨双智建设的新思路、新机遇。中国工程院院士郭仁忠、全国政协委员、交通运输部科学研究院副院长兼总工程师王先进、中国电动汽车百人会秘书长兼首席专家张永伟、中国信息通信研究院副院长王志勤、中国城市规划设计研

3/15/2022 4:10:00 PM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

摩尔线程重磅开源两大AI框架，国产GPU训练效率突破90%

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

降低门槛，全平台应用，昇腾还会手把手地教你如何用AI

院士、委员、专家共议“双智建设”：场景驱动、标准协同、以人为本