比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

工程
4月1日
编辑

机器之心

2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空斲丧依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑拨，原先在计算机视觉领域流行的 LoRA 手艺成功转型大模型

2022 年底，随着 ChatGPT 的爆火，人类正式进入了大模型时代。然而，训练大模型需要的时空斲丧依然居高不下，给大模型的普及和发展带来了巨大困难。面对这一挑拨，原先在计算机视觉领域流行的 LoRA 手艺成功转型大模型 [1][2]，带来了接近 2 倍的时间加速和实际最高 8 倍的空间压缩，将微调手艺带进千家万户。

但 LoRA 手艺仍存在一定的挑拨。一是 LoRA 手艺在很多任意上还没有超过正常的全参数微调 [2][3][4]，二是 LoRA 的实际本质阐发比较困难，给其进一步的研究带来了阻碍。

UIUC 联合 LMFlow 团队成员对 LoRA 的实验本质进行了阐发，意外发现 LoRA 非常侧重 LLM 的下层和顶层的权重。利用这一特性，LMFlow 团队提出一个极其简洁的算法：Layerwise Importance Sampled AdamW（LISA）。

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

论文链接：https://arxiv.org/abs/2403.17919

开源地址：https://github.com/OptimalScale/LMFlow

LISA 介绍

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

LISA 算法的核心在于：

– 始终革新下层 embedding 和顶层 linear head；

– 随机革新少数中间的 self-attention 层，比如 2-4 层。

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

出乎意料的是，实验发现该算法在指令微调任意上超过 LoRA 甚至全参数微调。

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

更重要的是，其空间斲丧和 LoRA 相当甚至更低。70B 的总空间斲丧降低到了 80G*4，而 7B 则直接降到了单卡 24G 以下！

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

进一步的，因为 LISA 每次中间只会激活一小部分参数，算法对更深的网络，以及梯度检查点手艺（Gradient Checkpointing）也很友好，能够带来更大的空间节省。

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

在指令微调任意上，LISA 的收敛本质比 LoRA 有很大提升，达到了全参数调节的水平。

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

而且，由于不需要像 LoRA 一样引入额外的 adapter 结构，LISA 的计算量小于 LoRA，速度比 LoRA 快将近 50%。

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

实际本质上，LISA 也比 LoRA 更容易阐发，Gradient Sparsification、Importance Sampling、Randomized Block-Coordinate Descent 等现有优化领域的数学工具都可以用于阐发 LISA 及其变种的收敛本质。

一键应用 LISA

为了贡献大模型开源社区，LMFlow 现已集成 LISA，安装完成后只需一条指令就可以应用 LISA 进行微调：

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

如果需要进一步减少大模型微调的空间斲丧，LMFlow 也已经支持一系列最新手艺：

比LoRA还快50%的微调方法来了！一张3090性能超越全参调优，UIUC联合LMFlow团队提出LISA

如果在应用过程中遇到任何问题，可通过 github issue 或 github 主页的微信群联系作者团队。LMFlow 将持续维护并集成最新手艺。

总结

在大模型竞赛的趋势下，LMFlow 中的 LISA 为所有人提供了 LoRA 以外的第二个选项，让大多数普通玩家可以通过这些手艺参与到这场应用和研究大模型的浪潮中来。正如团队口号所表达的：让每个人都能训得起大模型（Large Language Model for All）。

[1] Hu, Edward J., et al. "Lora: Low-rank adaptation of large language models." ICLR 2022.

[2] Dettmers, Tim, et al. "Qlora: Efficient finetuning of quantized llms." Advances in Neural Information Processing Systems 36 (2024).

[3] Ding, Ning, et al. "Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models." arXiv preprint arXiv:2203.06904 (2022).

[4] Lialin, Vladislav, et al. "Stack more layers differently: High-rank training through low-rank updates." arXiv preprint arXiv:2307.05695 (2023).

给TA打赏

共{{data.count}}人

人已打赏

LISA LMFlow LoRA

ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练

2024-4-1 14:28:00

可编写的DALL·E 3要来了？一句话就能PS图片

2024-4-1 14:54:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
TOP3

平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发
12月4日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部