1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

理论
11月27日
编辑

量子位

只要改一行代码，就能让大模型训练效率提升至1.47倍。拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。

只要改一行代码，就能让大模型训练效率提升至1.47倍。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

拥有得州大学奥斯汀分校背景四名华人学者，提出了大模型训练优化器Cautious Optimizers。

在提速的同时，Cautious能够保证训练效果不出现损失，而且语言和视觉模型都适用。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

该优化器以哈密顿量和下降动力学为理论基础，在加速的同时不影响收敛特性。

作者在600M到1B不同参数规模的Llama模型上进行了试验，获得了最高47%的加速率。

该研究相关代码已经开源，在GitHub上有使用方法的详细讲解。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

一行代码改进大模型训练

Cautious Optimizers在PyTorch当中增加的一行代码，核心思路是引入实现一种掩蔽机制，从而避免参数更新的方向与当前梯度方向相悖。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

因为这两个方向一旦不一致，就有可能导致损失函数暂时增加，造成收敛速度的减缓。

不过作者并未在方向不一致的来源问题上过度纠结，而是引入了一种判断机制，在参数更新之前增加一步计算，从而过滤掉方向不一致的情形。

这也正是上面代码的直接作用。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

△GD：梯度下降，GDM：带动量的梯度下降，C-GDM：本项目

具体来说，加入的两行代会对u和g两个向量求内积，u向量对应优化器给出的参数更新方向，而g向量对应当前时刻的梯度方向。

作者设计了一个对齐掩码函数ϕ，当u和g的内积小于0时（即方向不一致），ϕ的输出为0向量；当内积大于等于0时，ϕ的输出为全1向量。

而一旦ϕ为零向量时，w_t计算式中含u的项也会变为零向量，导致此项更新被跳过。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

这样就可以判断参数更新和梯度方向是否一致，如果不一致则不会用于参数更新，避免了训练过程中损失函数的回升。

训练效率提升47%

为了评估Cautious Optimizers的具体效果，作者分别在语言模型Llama和视觉模型MAE上进行了试验。

作者选取了60M、100M、350M和1B四种参数规模的Llama模型，在C4语料库上进行预训练。

优化器选用了AdamW和Lion，以及它们对应的Cautious版本:C-AdamW和C-Lion，每个实验中进行1万步迭代。

结果C-AdamW和C-Lion在所有规模上都表现出明显的收敛加速效果。

尤其是在1B规模上，相比原版的AdamW和Lion，它们的样本效率分别提高了47%和28%，这表明Cautious Optimizer能有效减少训练震荡，使收敛更平稳高效。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

并且，Cautious Optimizer在所有情况下都取得了更低的困惑度，印证了其出色的泛化性能。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

为了评估模型的实际效果，研究者在语句匹配、文本蕴含、情感分类等6个GLUE下游任务上测试了AdamW和C-AdamW优化后1B模型的表现,

结果表明，C-AdamW的平均得分比AdamW高出2%，在大多数任务上都取得了进步，说明Cautious跳过部分参数更新的方式不会引起模型性能下降。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

对于视觉模型，作者以ViT为骨干网络，在ImageNet-1K数据集上预训练了MAE模型。

由于视觉任务的特殊性，训练过程采用了随机遮挡图像块并重建的范式，因此优化目标是最小化重建误差，而非通常的分类损失。

作者对比了AdamW和C-AdamW的表现，即训练50轮后的最终重建误差，结果C-AdamW的误差为0.5926，低于AdamW的0.6085。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

一作曾在一周内复刻o1

本项目是由四名华人学者共同打造的。

第一作者Kaizhao Liang，是AI推理加速服务商SambaNova公司的一名高级ML工程师。

在o1模型发布一周内，该公司就推出了一个类似o1模型思考过程的开源平替，主要作者正是Liang。

1行代码改进大模型训练，Llama训练速度提升至1.47倍，全华人团队出品

其他三名作者是得州大学奥斯汀分校CS助理教授Qiang Liu，以及他的两名博士生，Lizhang Chen和Bo Liu。

此外，Liang的人工智能硕士学位也是从该校获得。

论文地址：https://arxiv.org/abs/2411.16085GitHub：https://github.com/kyleliang919/C-Optim

给TA打赏

共{{data.count}}人

人已打赏

清华量子计算成果登顶刊，首次发现噪声影响量子优势，来自丘成桐数学中心团队

2024-11-27 14:20:00

自主智能体提前实现了？！大佬自研Python工具包，让大模型成为生产级水准，免费可用！智能体可自主反馈，人类只需批准即可

2024-11-27 14:30:45

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
TOP3

ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发
12月4日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部