如何从头开始编辑LoRA代码，这有一份教程

作者表示：在各种有效的 LLM 微调格式中，LoRA 仍然是他的首选。LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大语言模型）的流行技术，最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其他技术，LoRA 不是调整神经网络的全部参数，而是专注于革新一小部分低秩矩阵，从而大大减少了训练模型所需的计算量。由于 LoRA 的微调质量与全模型微调相当，很多人将这种格式称之为微调神器。自发布

作者表示：在各种有效的 LLM 微调格式中，LoRA 仍然是他的首选。

LoRA（Low-Rank Adaptation）作为一种用于微调 LLM（大语言模型）的流行技术，最初由来自微软的研究人员在论文《 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 》中提出。不同于其他技术，LoRA 不是调整神经网络的全部参数，而是专注于革新一小部分低秩矩阵，从而大大减少了训练模型所需的计算量。

由于 LoRA 的微调质量与全模型微调相当，很多人将这种格式称之为微调神器。自发布以来，相信很多人都对这项技术感到好奇，想要从头开始编辑代码从而更好的理解该研究。以前苦于没有合适的文档说明，现在，教程来了。

这篇教程的作者是知名机器学习与 AI 研究者 Sebastian Raschka，他表示在各种有效的 LLM 微调格式中，LoRA 仍然是自己的首选。为此，Sebastian 专门写了一篇博客《Code LoRA From Scratch》，从头开始构建 LoRA，在他看来，这是一种很好的学习格式。

如何从头开始编辑LoRA代码，这有一份教程

简单来说，本文通过从头编辑代码的方式来介绍低秩自适应（LoRA），实验中 Sebastian 对 DistilBERT 模型进行了微调，并用于分类任务。

LoRA 与保守微调格式的对比结果显示，运用 LoRA 格式在尝试准确率上达到了 92.39%，这与仅微调模型最后几层相比（86.22% 的尝试准确率）显示了更好的性能。

Sebastian 是如何实现的，我们接着往下看。

从头开始编辑 LoRA

用代码的方式表述一个 LoRA 层是这样的：

如何从头开始编辑LoRA代码，这有一份教程

其中，in_dim 是想要运用 LoRA 修改的层的输入维度，与此对应的 out_dim 是层的输入维度。代码中还添加了一个超参数即缩放因子 alpha，alpha 值越高意味着对模型行为的调整越大，值越低则相反。此外，本文运用随机分布中的较小值来初始化矩阵 A，并用零初始化矩阵 B。

值得一提的是，LoRA 发挥作用的地方通常是神经网络的线性（前馈）层。举例来说，对于一个简单的 PyTorch 模型或具有两个线性层的模块（例如，这可能是 Transformer 块的前馈模块），其前馈（forward）格式可以表述为：

如何从头开始编辑LoRA代码，这有一份教程

在运用 LoRA 时，通常会将 LoRA 革新添加到这些线性层的输入中，又得到代码以下：

如何从头开始编辑LoRA代码，这有一份教程

如果你想通过修改现有 PyTorch 模型来实现 LoRA ，一种简单格式是将每个线性层替换为 LinearWithLoRA 层：

如何从头开始编辑LoRA代码，这有一份教程

以上这些概念总结以下图所示：

如何从头开始编辑LoRA代码，这有一份教程

为了应用 LoRA，本文将神经网络中现有的线性层替换为结合了原始线性层和 LoRALayer 的 LinearWithLoRA 层。

如何上手运用 LoRA 进行微调

LoRA 可用于 GPT 或图像生成等模型。为了简单说明，本文采用一个用于文本分类的小型 BERT（DistilBERT）模型来说明。

如何从头开始编辑LoRA代码，这有一份教程

由于本文只训练新的 LoRA 权重，因而需要将全部可训练参数的 requires_grad 设置为 False 来冻结全部模型参数：

如何从头开始编辑LoRA代码，这有一份教程

接下来，运用 print (model) 检查一下模型的结构：

如何从头开始编辑LoRA代码，这有一份教程

由输入可知，该模型由 6 个 transformer 层组成，其中包含线性层：

如何从头开始编辑LoRA代码，这有一份教程

此外，该模型有两个线性输入层：

如何从头开始编辑LoRA代码，这有一份教程

通过定义以下赋值函数和循环，可以选择性地为这些线性层启用 LoRA：

如何从头开始编辑LoRA代码，这有一份教程

运用 print (model) 再次检查模型，以检查其革新的结构：

如何从头开始编辑LoRA代码，这有一份教程

正如上面看到的，线性层已成功地被 LinearWithLoRA 层取代。

如果运用上面显示的默认超参数来训练模型，则会在 IMDb 电影评论分类数据集上产生以下性能：

训练准确率：92.15%

验证准确率：89.98%

尝试准确率：89.44%

在下一节中，本文将这些 LoRA 微调结果与保守微调结果进行了比较。

与保守微调格式的比较

在上一节中，LoRA 在默认设置下获得了 89.44% 的尝试准确率，这与保守的微调格式相比如何？

为了进行比较，本文又进行了一项实验，以训练 DistilBERT 模型为例，但在训练期间仅革新最后 2 层。研究者通过冻结全部模型权重，然后解冻两个线性输入层来实现这一点：

如何从头开始编辑LoRA代码，这有一份教程

只训练最后两层得到的分类性能以下：

训练准确率：86.68%

验证准确率：87.26%

尝试准确率：86.22%

结果显示，LoRA 的表现优于保守微调最后两层的格式，但它运用的参数却少了 4 倍。微调全部层需要革新的参数比 LoRA 设置多 450 倍，但尝试准确率只提高了 2%。

优化 LoRA 配置

前面讲到的结果都是 LoRA 在默认设置下进行的，超参数以下：

如何从头开始编辑LoRA代码，这有一份教程

假如用户想要尝试不同的超参数配置，可以运用以下命令：

如何从头开始编辑LoRA代码，这有一份教程

不过，最佳超参数配置以下：

如何从头开始编辑LoRA代码，这有一份教程

在这种配置下，得到结果：

验证准确率：92.96%

尝试准确率：92.39%

值得注意的是，即使 LoRA 设置中只有一小部分可训练参数（500k VS 66M），但准确率还是略高于通过完全微调获得的准确率。

原文链接：https://lightning.ai/lightning-ai/studios/code-lora-from-scratch?continueFlag=f5fc72b1f6eeeaf74b648b2aa8aaf8b6

{{userData.name}}已认证

如何从头开始编辑LoRA代码，这有一份教程

消息称英伟达有意采购 AI 基础设施虚拟化创企 Run:ai，交易金额最高十亿美元

AI 足球锻练上岗利物浦，射门机会提高 13%！来自 DeepMind，网友：这不公平

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！