ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Disc

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2024 接收,代码已开源。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

论文地址:https://arxiv.org/abs/2405.03003

项目地址:https://github.com/Chaos96/fourierft

背景

大型基座模型在自然语言处理(NLP)和计算机视觉(CV)领域都获得了瞩目的成就。微调(Finetuning)大型基座模型,使其更加符合特殊的下游使命,成为了一项热门研究课题。然而,在模型越来越大,下游使命越来越多样的今天,微调整个模型带来的计算、存储消费已大到不再能被接受。LoRA 采用低秩拟合微调增量的方案,成功降低了大量的此类消费,但每个符合器(adapter)的大小仍然是不可忽视的。这激发了本文的核心问题:相比 LoRA,如何进一步大幅减少可训练参数?此外,一个有趣的附加问题是能否采用更少的参数目得到高秩增量矩阵

要领

傅立叶基底在各类数据压缩应用中广泛使用,例如一维向量旌旗灯号和二维图象的压缩。在这些应用中,稠密的空域旌旗灯号通过傅立叶变幻被转化为稀薄的频域旌旗灯号。基于这一原理,作家推测模型权重的增量也可以被视为一种空域旌旗灯号,其对应的频域旌旗灯号可以通过稀薄表示来实现。

在这一假设的基础上,作家提出了一种新的要领,用于在频域中学习增量权重旌旗灯号。具体来说,该要领通过随机位置的稀薄频域旌旗灯号来表示空域权重增量。在加载预训练模型时,首先随机选择 n 个点作为有效的频域旌旗灯号,然后将这些旌旗灯号拼接成一个一维向量。在前向传播过程中,这个一维向量被用来通过傅立叶变幻恢复空域矩阵;在反向传播过程中,由于傅里叶变幻的可导性,可以直接对此可学习的向量进行更新。这种要领不仅有效减少了模型微调时所需的参数数目,同时保证了微调功能。通过这种方式,作家不仅实现了对大规模基础模型的高效微调,还展示了傅立叶变幻在机器学习领域中的潜在应用价值。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

得益于傅立叶变幻基底的高信息量,仅需很小的 n 值即可达到与 LoRA 相当甚至超过 LoRA 的表现。一般来说,傅立叶微调的可训练参数仅为 LoRA 的千分之一到十分之一。

实验

1. 自然语言理解

作家在自然语言理解的 GLUE 基准测试上对傅立叶微调要领进行了评估。基线对比要领包括全量微调(FF,Full Finetuning)、Bitfit、符合器微调(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各种要领在 GLUE 各个使命上的表现及其所需的训练参数目。结果表明,傅立叶微调以最少的参数目达到了甚至超越了其他微调要领的功能。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

2. 自然语言指令微调

大模型的自然语言生成是目前模型微调的重要应用领域。作家在 LLaMA 系列模型、MT-Bench 使命和 Vicuna 使命上评估了傅立叶微调的功能。结果显示,傅立叶微调以极低的训练参数目达到了与 LoRA 相似的效果,进一步验证了傅里叶微调要领的通用性和有效性。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

3. 图象分类

作家在 Vision Transformer 上测试了傅里叶微调的功能,涵盖了 8 个常见的图象分类数据集。实验结果表明,虽然在图象分类使命中傅立叶微调相较LoRA的压缩率提升并不比自然语言使命中显著,但其仍然以远小于 LoRA 的参数目超越了 LoRA 的效果。这进一步展示了傅立叶微调在不同应用领域中的有效性和优势。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

4. 突破低秩

在 GLUE 基准的 RTE 数据集上,FourierFT 可以实现明显高于 LoRA (通常为 4 或 8) 的增量的秩。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

5.GPU 资源消费

微调过程中,FourierFT 可以实现比 LoRA 更少的 GPU 消费。下图为采用单张 4090 显卡在 RoBERTa-Large 模型上的巅峰内存消费。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

结论

作家介绍了一种名为傅立叶微调的高效微调要领,通过利用傅里叶变幻来减少大基础模型微调时的可训练参数数目。该要领通过学习少量的傅里叶谱系数来表示权重变化,显著降低了存储和计算需求。实验结果显示,傅立叶微调在自然语言理解、自然语言生成、指令调优和图象分类等使命上表现优异,与现有的低秩符合要领(如 LoRA)相比,傅立叶微调在保持或超过 LoRA 功能的同时,所需的可训练参数大幅减少。

给TA打赏
共{{data.count}}人
人已打赏
工程

用前提模型辅导特性传递,首个泛化型图象婚配器OmniGlue搞定未见过域

2024-5-27 15:17:00

工程

全面超越DPO:陈丹琦团队提出容易偏好优化SimPO,还炼出最强8B开源模型

2024-5-27 15:35:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索