机器学习|从0开始大模型之模型LoRA训练

1、LoRA是如何实现的? 在深入了解 LoRA 之前，我们先回顾一下一些基本的线性代数概念。 1.1、秩给定矩阵中线性独立的列（或行）的数量，称为矩阵的秩，记为 rank(A) 。

1、LoRA是如何实现的?

在深入了解 LoRA 之前，我们先回顾一下一些基本的线性代数概念。

1.1、秩

给定矩阵中线性独立的列（或行）的数量，称为矩阵的秩，记为 rank(A) 。

矩阵的秩小于或等于列（或行）的数量，rank(A) ≤ min{m, n}
满秩矩阵是所有的行或者列都独立，rank(A) = min{m, n}
不满秩矩阵是满秩矩阵的反面是不满秩，即 rank(A) < min(m, n)，矩阵的列（或行）不是彼此线性独立的

举个两个秩的例子：

机器学习|从0开始大模型之模型LoRA训练不满秩

机器学习|从0开始大模型之模型LoRA训练满秩

1.2、秩相关属性

从上面的秩的介绍中可以看出，矩阵的秩可以被理解为它所表示的特征空间的维度，在这种情况下，特定大小的低秩矩阵比相同维度的满秩矩阵封装更少的特征（或更低维的特征空间）。与之相关的属性如下：

矩阵的秩受其行数和列数中最小值的约束，rank(A) ≤ min{m, n}；
两个矩阵的乘积的秩受其各自秩的最小值的约束，给定矩阵 A 和 B，其中 rank(A) = m 且 rank(A) = n，则 rank(AB) ≤ min{m, n}；

1.3、LoRA

LoRA（Low rand adaption）是微软研究人员提出的一种高效的微调技术，用于使大型模型适应特定任务和数据集。LoRA 的背后的主要思想是模型微调期间权重的变化也具有较低的内在维度，具体来说，如果Wₙₖ代表单层的权重，ΔWₙₖ代表模型自适应过程中权重的变化，作者提出ΔWₙₖ是一个低秩矩阵，即：rank(ΔWₙₖ) << min(n,k) 。

为什么？模型有了基座以后，如果强调学习少量的特征，那么就可以大大减少参数的更新量，而ΔWₙₖ就可以实现，这样就可以认为ΔWₙₖ是一个低秩矩阵。

实现原理ΔWₙₖ是一个更新矩阵，然后ΔWₙₖ根据秩的属性，又可以拆分两个低秩矩阵的乘积，即：Bₙᵣ 和 Aᵣₖ ，其中 r << min{n,k} 。这意味着网络中权重 Wx = Wx + ΔWx = Wx + BₙᵣAᵣₖx，由于 r 很小，所以 BₙᵣAᵣₖ 的参数数量非常少，所以只需要更新很少的参数。

机器学习|从0开始大模型之模型LoRA训练 LoRA

2、peft库

LoRA 训练非常方便，只需要借助 https://huggingface.co/blog/zh/peft 库，这是 huggingface 提供的，使用方法如下：

复制

# 引入库
from peft import get_peft_model, LoraConfig, TaskType

# 创建对应的配置
peft_config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["q", "v"],
    lora_dropout=0.01,
    bias="none"
    task_type="SEQ_2_SEQ_LM",
)

# 包装模型
model = AutoModelForSeq2SeqLM.from_pretrained(
    "t5-small",
)
model = get_peft_model(model, peft_config)
model.print_trainable_parameters()

LoraConfig 详细参数如下：

r：秩，即上面的r，默认为8；
target_modules：对特定的模块进行微调，默认为None，支持nn.Linear、nn.Embedding和nn.Conv2d；
lora_alpha：ΔW 按 α / r 缩放，其中 α 是常数，默认为8；
task_type：任务类型，支持包括 CAUSAL_LM、FEATURE_EXTRACTION、QUESTION_ANS、SEQ_2_SEQ_LM、SEQ_CLS 和 TOKEN_CLS 等；
lora_dropout：Dropout 概率，默认为0，通过在训练过程中以 dropout 概率随机选择要忽略的神经元来减少过度拟合的技术；
bias：是否添加偏差，默认为 “none”；

3、训练

使用 peft 库对SFT全量训练修改如下：

复制

def init_model():
    def count_parameters(model):
        return sum(p.numel() for p in model.parameters() if p.requires_grad)
    
    def find_all_linear_names(model):
        cls = torch.nn.Linear
        lora_module_names = set()
        for name, module in model.named_modules():
            if isinstance(module, cls):
                names = name.split('.')
                lora_module_names.add(names[0] if len(names) == 1 else names[-1])

        return list(lora_module_names)

    model = Transformer(lm_config)
    ckp = f'./out/pretrain_{lm_config.dim}.pth.{batch_size}'
    state_dict = torch.load(ckp, map_locatinotallow=device_type)
    unwanted_prefix = '_orig_mod.'
    for k, v in list(state_dict.items()):
        if k.startswith(unwanted_prefix):
            state_dict[k[len(unwanted_prefix):]] = state_dict.pop(k)
    model.load_state_dict(state_dict, strict=False)

    target_modules = find_all_linear_names(model)
    peft_config = LoraConfig(
        r=8,
        target_modules=target_modules
    )
    model = get_peft_model(model, peft_config)
    model.print_trainable_parameters()

    print(f'LLM总参数量：{count_parameters(model) / 1e6:.3f} 百万')
    model = model.to(device_type)
    return model

只需要修改模型初始化部分，其他不变，训练过程和之前一样，这里不再赘述。

参考

（1）https://cloud.tencent.com/developer/article/2372297

（2）http://www.bimant.com/blog/lora-deep-dive/

（3）https://blog.csdn.net/shebao3333/article/details/134523779

{{userData.name}}已认证

机器学习|从0开始大模型之模型LoRA训练

1、LoRA是如何实现的?

1.1、秩

1.2、秩相关属性

1.3、LoRA

2、peft库

3、训练

参考

Bolt.new vs Cursor ，怎么选？

6000字干货！超全面的Stable Diffusion进修指南：初识篇

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩