月之暗面推出新优化器Muon，计算效率大幅提升

2025-02-24 03:53

近日，人工智能领域再度掀起波澜，月之暗面（Moonshot）宣布开源新版优化器 Muon，成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库，引发了业内的高度关注和讨论。 Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出，针对小规模模型训练时表现优异。

近日，人工智能领域再度掀起波澜，月之暗面（Moonshot）宣布开源新版优化器 Muon，成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库，引发了业内的高度关注和讨论。

Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出，针对小规模模型训练时表现优异。然而，随着模型规模的扩大，原始 Muon 在性能提升上遭遇瓶颈。为此，月之暗面团队进行了深入的技术改进，主要包括添加权重衰减和一致的均方根（RMS）更新，以支持在大规模训练中应用 Muon，无需再进行超参数调整。

新的 Muon 优化器已被应用于最新推出的 Moonlight 模型，这是一种拥有3B/16B 参数的混合专家（MoE）模型，在经过5.7万亿 tokens 的训练后，性能显著提升，成为当前的 “帕累托前沿”。这一成果意味着，在相同的训练预算下，Moonlight 模型在所有性能指标上均超越其他模型。

月之暗面还开源了 Muon 的实现代码，并发布了相应的预训练和中间检查点，为研究人员的后续研究提供了宝贵资源。研究表明，Muon 优化器在训练过程中所需的 FLOPs 仅为 AdamW 的52%，这进一步验证了其在大规模语言模型训练中的高效性。

月之暗面的 Muon 优化器不仅在性能上超越了传统的优化器，而且通过开源的形式为整个 AI 领域的发展注入了新的活力。随着越来越多的研究者和开发者的参与，这一优化器有望推动人工智能技术的进一步进步。

论文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。

2/24/2025 9:25:00 AM

AI在线