AI在线 AI在线

月之暗面推出新优化器Muon,计算效率大幅提升

作者:AI在线
2025-02-24 03:53
近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。 这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。 Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。

近日,人工智能领域再度掀起波澜,月之暗面(Moonshot)宣布开源新版优化器 Muon,成功将计算效率提升至传统 AdamW 的两倍。这个新优化器的推出恰逢 DeepSeek 即将连续开源多个代码库,引发了业内的高度关注和讨论。

image.png

Muon 优化器最初由 OpenAI 的研究者 Keller Jordan 等人在2024年提出,针对小规模模型训练时表现优异。然而,随着模型规模的扩大,原始 Muon 在性能提升上遭遇瓶颈。为此,月之暗面团队进行了深入的技术改进,主要包括添加权重衰减和一致的均方根(RMS)更新,以支持在大规模训练中应用 Muon,无需再进行超参数调整。

新的 Muon 优化器已被应用于最新推出的 Moonlight 模型,这是一种拥有3B/16B 参数的混合专家(MoE)模型,在经过5.7万亿 tokens 的训练后,性能显著提升,成为当前的 “帕累托前沿”。这一成果意味着,在相同的训练预算下,Moonlight 模型在所有性能指标上均超越其他模型。

月之暗面还开源了 Muon 的实现代码,并发布了相应的预训练和中间检查点,为研究人员的后续研究提供了宝贵资源。研究表明,Muon 优化器在训练过程中所需的 FLOPs 仅为 AdamW 的52%,这进一步验证了其在大规模语言模型训练中的高效性。

月之暗面的 Muon 优化器不仅在性能上超越了传统的优化器,而且通过开源的形式为整个 AI 领域的发展注入了新的活力。随着越来越多的研究者和开发者的参与,这一优化器有望推动人工智能技术的进一步进步。

论文地址:https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf

相关标签:

相关资讯

月之暗面联手UCLA推新模型Mixture-of-Expert,提升语言模型训练效率

在人工智能领域,训练大型语言模型(LLMs)已成为推动技术进步的重要方向。 然而,随着模型规模和数据集的不断扩大,传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。 研究人员面临着计算成本高、训练不稳定等一系列挑战,包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。
2/24/2025 9:25:00 AM
AI在线

月之暗面因 DeepSeek 调整工作重心?内部人士:强化学习或许会是个方向

2 月 15 日下午消息,据媒体报道,月之暗面内部已经将“持续拿到 SOTA 结果”确定为当下最重要的工作目标。2025 年,月之暗面围绕模型能力的关键方向除了继续强化多模态部分外,还会继续强化长文本推理能力。
2/15/2025 4:51:20 PM
凌辰

消息称 Kimi 大砍投放预算,DeepSeek 冲击之下月之暗面暂缓“烧钱”投广告

月之暗面近期决定大幅收缩产品投放预算,包括暂停多个安卓渠道的投放,以及第三方广告平台的合作。(界面新闻)
2/18/2025 4:41:14 PM
汪淼