如何理解模型的蒸馏和量化

在LLM领域内,经常会听到两个名词:蒸馏和量化。 这代表了LLM两种不同的技术,它们之间有什么区别呢? 本次我们就来详细聊一下。

如何理解模型的蒸馏和量化

在LLM领域内,经常会听到两个名词:蒸馏和量化。这代表了LLM两种不同的技术,它们之间有什么区别呢?本次我们就来详细聊一下。

一、模型蒸馏

1.1  什么是模型蒸馏

模型蒸馏是一种知识迁移技术,通过将一个大规模、预训练的教师模型(Teacher Model)所蕴含的知识传递给一个规模较小的学生模型(Student Model),使学生模型在性能上接近教师模型,同时显著降低计算资源消耗。

以一种更为通俗的方式来解释:

假设你有一个特别聪明的学霸朋友(大模型),他考试能考100分,但做题速度慢(计算量大),没法帮你考场作弊。

于是你想:能不能让学霸把他的“解题思路”教给你,让你变成一个小号的学霸(小模型),做题又快又准?

这就是模型蒸馏的思想。

1.2  蒸馏的核心原理

学霸的“秘密武器”不是答案本身,而是他的“思考过程”!

  • 普通训练:老师(训练数据)直接告诉你答案(标签),比如“这张图是猫”。
  • 蒸馏训练:学霸(大模型)不仅告诉你答案,还告诉你:“这张图80%像猫,15%像豹子,5%像狗”(软标签),因为猫和豹子都有毛茸茸的特征。

小模型通过学霸的“思考细节”,能学得更深,甚至发现学霸自己都没总结出的规律。

1.3  蒸馏的工作原理

  • 教师模型训练:首先训练一个性能强大的教师模型,该模型通常具有复杂的结构和大量的参数。教师模型就是常规训练的LLM,比如GPT4。
  • 生成软标签:教师模型对训练数据进行预测,生成软标签(概率分布),这些软标签包含了教师模型对各类别的置信度信息。本质来说就是通过softmax将预测结果转化为概率分布,表示模型预测每个类别的可能性。
  • 学生模型训练:学生模型使用教师模型生成的软标签进行训练,同时也可以结合真实标签进行联合训练。通过优化损失函数(KL散度),使学生模型的输出尽可能接近教师模型的输出。注:Kullback-Leibler (KL) 散度,也称为相对熵,是衡量一个概率分布与第二个参考概率分布之间差异程度的指标。 简单来说,它衡量的是两个概率分布有多么不同。
  • 微调:在蒸馏完成后,进一步微调学生模型以提高其性能表现

1.4  举个例子

比如有这样一个任务:需要识别不同动物的图片。

  • 学霸(大模型):看到一张猫的图片,输出概率:猫(95%)、豹子(4%)、狗(1%)。
  • 普通小模型:只知道正确答案是“猫”,拼命记猫的特征,但遇到豹子可能认错。
  • 蒸馏后的小模型:学霸告诉它:“重点看耳朵形状和花纹,猫和豹子有点像,但豹子花纹更复杂”。于是小模型学会区分细微差别,准确率更高!

1.5  为什么蒸馏有效?

通过硬标签向软标签的转换,让笨徒弟(小模型)偷师学霸(大模型)的“内功心法”,而不是只抄答案。

  • 硬标签(正确答案):只告诉小模型“是猫”,就像只背答案,不懂原理。
  • 软标签(概率分布):告诉小模型“猫、豹子、狗的相似点”,就像学霸教你举一反三。
  • 防止学死记硬背:小模型不会过度依赖训练数据中的偶然特征(减少过拟合)。

1.6  模型蒸馏的具体实现

1.6.1  准备教师模型和学生模型

教师模型:通常是一个预训练好的复杂模型(如ResNet-50、BERT等)。

学生模型:结构更简单的小模型(如MobileNet、TinyBERT等),参数少但需要与教师模型兼容。

1.6.2  定义损失函数

蒸馏损失(Distillation Loss):学生模型模仿教师模型的输出分布。

可以使用KL散度或交叉熵衡量两者的输出差异。

学生损失(Student Loss):学生模型预测结果与真实标签的交叉熵。

总损失:加权结合两种损失:

1.6.3  训练过程

  • 温度参数:软化输出分布,通常取2~5。训练完成推理时设置为1。
  • 数据选择:使用教师模型生成软标签的数据(可以是训练集或额外数据)。
  • 优化器:选择Adam、SGD等,学习率通常低于普通训练(例如0.001)。
  • 训练细节:
  • 先固定教师模型,仅训练学生模型。
  • 可以逐步调整温度参数或损失权重。
import torch
import torch.nn as nn
import torch.optim as optim


# 定义教师模型和学生模型
teacher_model = ...  # 预训练好的复杂模型
student_model = ...  # 待训练的小模型


# 定义损失函数
criterion_hard = nn.CrossEntropyLoss()  # 学生损失(硬标签)
criterion_soft = nn.KLDivLoss(reductinotallow='batchmean')  # 蒸馏损失(软标签)


# 温度参数和权重
temperature = 5
alpha = 0.7


# 优化器
optimizer = optim.Adam(student_model.parameters(), lr=1e-4)


# 训练循环
for inputs, labels in dataloader:
    # 教师模型推理(不计算梯度)
    with torch.no_grad():
        teacher_logits = teacher_model(inputs)


    # 学生模型推理
    student_logits = student_model(inputs)


    # 计算损失
    loss_student = criterion_hard(student_logits, labels)


    # 软化教师和学生输出
    soft_teacher = torch.softmax(teacher_logits / temperature, dim=-1)
    soft_student = torch.log_softmax(student_logits / temperature, dim=-1)


    loss_distill = criterion_soft(soft_student, soft_teacher) * (temperature**2)


    # 总损失
    total_loss = alpha * loss_distill + (1 - alpha) * loss_student


    # 反向传播
    optimizer.zero_grad()
    total_loss.backward()
    optimizer.step()

二、模型量化

2.1  什么是模型量化

模型量化(Model Quantization)是一种通过降低模型参数的数值精度(如将32位浮点数转换为8位整数)来压缩模型大小、提升推理速度并降低功耗的技术。

举个具体例子:

假设模型记住了一群人的体重:

  • 原版:[55.3kg, 61.7kg, 48.9kg](精确到小数点)
  • 量化版:[55kg, 62kg, 49kg](四舍五入取整)

误差就像体重秤的±0.5kg,不影响判断「是否超重」

2.2  为什么要模型量化?

1、体积暴减

  • 原模型像装满矿泉水瓶的箱子(500MB)
  • 量化后像压扁的易拉罐(125MB)

2、速度起飞

  • 原来用大象运货(FP32计算)
  • 现在换快递小车(INT8计算)

    NVIDIA显卡上推理速度提升2-4倍

3、省电耐耗

  • 原本手机跑模型像开空调(耗电快)
  • 量化后像开电风扇(省电60%)

2.3  如何进行模型量化?

1、划定范围

  • 找出最轻48.9kg和最重61.7kg
  • 就像量身高要站在标尺前

2、标刻度

  • 把48.9-61.7kg映射到0-100的整数
  • 公式:量化值 = round( (原值 - 最小值) / 步长 )
  • 步长 = (61.7-48.9)/100 = 0.128

3、压缩存储

  • 55.3kg → (55.3-48.9)/0.128 ≈ 50 → 存为整数50
  • 使用时还原:50×0.128+48.9 ≈ 55.3kg
  • 误差控制:就像买菜抹零,5.2元算5元,差2毛不影响做菜

2.4  常用量化方式

1、事后减肥法(训练后量化)

  • 适用场景:模型已经训练好,直接压缩
  • 操作:像用榨汁机把水果变成果汁(保持营养但损失纤维)
import torch


# 准备模型(插入量化模块)
model.eval()  # 确保模型处于评估模式
model.qconfig = torch.quantization.default_qconfig  # 设置默认量化配置
quantized_model = torch.quantization.prepare(model)  # 插入观察器


# 收集校准数据
for data, _ in calibration_data:
    quantized_model(data.to('cpu'))  # 在 CPU 上运行,避免对模型结构的影响


quantized_model = torch.quantization.convert(quantized_model)  # 转换为量化模型
  • 优点:快!5分钟搞定
  • 缺点:可能损失关键精度

2、健康瘦身法(量化感知训练)

  • 适用场景:训练时就控制模型「体重」
  • 操作:像健身教练全程监督,边训练边控制饮食
# PyTorch示例(训练时插伪量化节点)
model.qconfig = torch.ao.quantization.get_default_qat_qconfig('fbgemm')
model = torch.ao.quantization.prepare_qat(model)
# 正常训练...
model = torch.ao.quantization.convert(model)
  • 优点:精度更高(像保留肌肉的减肥)
  • 缺点:要重新训练(耗时久)

3、混合套餐法(混合精度量化)

  • 核心思想:重要部分用高精度,次要部分用低精度

例如:

    人脸识别:眼睛区域用FP16,背景用INT8

    语音识别:关键词用16bit,静音段用4bit

虽然说量化后模型不如原模型精度效果好,但是推理性能的提升相较性能损失在可控范围内,性价比上量化是更优的。

相关资讯

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下:我们更慢,但更强了。 o1 要花更多的时间思考问题,再做出反应,但在复杂推理层面直接窜了几个档位。 在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而 o1 得分为 83%。

简单了解大模型(LLM)智能体,传统软件工程思维依然适用

说到大模型应用的理想态,我相信很多人都可以想到《钢铁侠》里面的贾维斯,可以根据环境、天气、对手火力等情况,给钢铁侠提供决策指导或者自主决策。 大模型Agent就是人们希望借助大模型实现的类似于贾维斯一样智能助手能力,它具备环境感知能力、自主理解、决策制定以及行动执行的能力。 在实现Agent架构过程中,有很多思维方式和传统软件工程思维是相似的。

LLM为何频频翻车算术题?研究追踪单个神经元,「大脑短路」才是根源

由于缺少对运行逻辑的解释,大模型一向被人称为「黑箱」,但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。 例如Claude在2023年发表的一项研究,将大模型中大约500个神经元分解成约4000个可解释特征。 而10月28日的一项研究,以算术推理作为典型任务,借鉴类似的研究方法,确定了大模型中的一个模型子集,能解释模型大部分的基本算术逻辑行为。