如何理解模型的蒸馏和量化

作者：

2025-03-07 08:00

在LLM领域内，经常会听到两个名词：蒸馏和量化。这代表了LLM两种不同的技术，它们之间有什么区别呢？本次我们就来详细聊一下。

如何理解模型的蒸馏和量化

在LLM领域内，经常会听到两个名词：蒸馏和量化。这代表了LLM两种不同的技术，它们之间有什么区别呢？本次我们就来详细聊一下。

一、模型蒸馏

1.1 什么是模型蒸馏

模型蒸馏是一种知识迁移技术，通过将一个大规模、预训练的教师模型（Teacher Model）所蕴含的知识传递给一个规模较小的学生模型（Student Model），使学生模型在性能上接近教师模型，同时显著降低计算资源消耗。

以一种更为通俗的方式来解释：

假设你有一个特别聪明的学霸朋友（大模型），他考试能考100分，但做题速度慢（计算量大），没法帮你考场作弊。

于是你想：能不能让学霸把他的“解题思路”教给你，让你变成一个小号的学霸（小模型），做题又快又准？

这就是模型蒸馏的思想。

1.2 蒸馏的核心原理

学霸的“秘密武器”不是答案本身，而是他的“思考过程”！

普通训练：老师（训练数据）直接告诉你答案（标签），比如“这张图是猫”。
蒸馏训练：学霸（大模型）不仅告诉你答案，还告诉你：“这张图80%像猫，15%像豹子，5%像狗”（软标签），因为猫和豹子都有毛茸茸的特征。

小模型通过学霸的“思考细节”，能学得更深，甚至发现学霸自己都没总结出的规律。

1.3 蒸馏的工作原理

教师模型训练：首先训练一个性能强大的教师模型，该模型通常具有复杂的结构和大量的参数。教师模型就是常规训练的LLM，比如GPT4。
生成软标签：教师模型对训练数据进行预测，生成软标签（概率分布），这些软标签包含了教师模型对各类别的置信度信息。本质来说就是通过softmax将预测结果转化为概率分布，表示模型预测每个类别的可能性。
学生模型训练：学生模型使用教师模型生成的软标签进行训练，同时也可以结合真实标签进行联合训练。通过优化损失函数（KL散度），使学生模型的输出尽可能接近教师模型的输出。注：Kullback-Leibler (KL) 散度，也称为相对熵，是衡量一个概率分布与第二个参考概率分布之间差异程度的指标。简单来说，它衡量的是两个概率分布有多么不同。
微调：在蒸馏完成后，进一步微调学生模型以提高其性能表现

1.4 举个例子

比如有这样一个任务：需要识别不同动物的图片。

学霸（大模型）：看到一张猫的图片，输出概率：猫（95%）、豹子（4%）、狗（1%）。
普通小模型：只知道正确答案是“猫”，拼命记猫的特征，但遇到豹子可能认错。
蒸馏后的小模型：学霸告诉它：“重点看耳朵形状和花纹，猫和豹子有点像，但豹子花纹更复杂”。于是小模型学会区分细微差别，准确率更高！

1.5 为什么蒸馏有效？

通过硬标签向软标签的转换，让笨徒弟（小模型）偷师学霸（大模型）的“内功心法”，而不是只抄答案。

硬标签（正确答案）：只告诉小模型“是猫”，就像只背答案，不懂原理。
软标签（概率分布）：告诉小模型“猫、豹子、狗的相似点”，就像学霸教你举一反三。
防止学死记硬背：小模型不会过度依赖训练数据中的偶然特征（减少过拟合）。

1.6 模型蒸馏的具体实现

1.6.1 准备教师模型和学生模型

教师模型：通常是一个预训练好的复杂模型（如ResNet-50、BERT等）。

学生模型：结构更简单的小模型（如MobileNet、TinyBERT等），参数少但需要与教师模型兼容。

1.6.2 定义损失函数

蒸馏损失（Distillation Loss）：学生模型模仿教师模型的输出分布。

可以使用KL散度或交叉熵衡量两者的输出差异。

学生损失（Student Loss）：学生模型预测结果与真实标签的交叉熵。

总损失：加权结合两种损失：

1.6.3 训练过程

温度参数：软化输出分布，通常取2~5。训练完成推理时设置为1。
数据选择：使用教师模型生成软标签的数据（可以是训练集或额外数据）。
优化器：选择Adam、SGD等，学习率通常低于普通训练（例如0.001）。
训练细节：
先固定教师模型，仅训练学生模型。
可以逐步调整温度参数或损失权重。

import torch
import torch.nn as nn
import torch.optim as optim


# 定义教师模型和学生模型
teacher_model = ...  # 预训练好的复杂模型
student_model = ...  # 待训练的小模型


# 定义损失函数
criterion_hard = nn.CrossEntropyLoss()  # 学生损失（硬标签）
criterion_soft = nn.KLDivLoss(reductinotallow='batchmean')  # 蒸馏损失（软标签）


# 温度参数和权重
temperature = 5
alpha = 0.7


# 优化器
optimizer = optim.Adam(student_model.parameters(), lr=1e-4)


# 训练循环
for inputs, labels in dataloader:
    # 教师模型推理（不计算梯度）
    with torch.no_grad():
        teacher_logits = teacher_model(inputs)


    # 学生模型推理
    student_logits = student_model(inputs)


    # 计算损失
    loss_student = criterion_hard(student_logits, labels)


    # 软化教师和学生输出
    soft_teacher = torch.softmax(teacher_logits / temperature, dim=-1)
    soft_student = torch.log_softmax(student_logits / temperature, dim=-1)


    loss_distill = criterion_soft(soft_student, soft_teacher) * (temperature**2)


    # 总损失
    total_loss = alpha * loss_distill + (1 - alpha) * loss_student


    # 反向传播
    optimizer.zero_grad()
    total_loss.backward()
    optimizer.step()

二、模型量化

2.1 什么是模型量化

模型量化（Model Quantization）是一种通过降低模型参数的数值精度（如将32位浮点数转换为8位整数）来压缩模型大小、提升推理速度并降低功耗的技术。

举个具体例子：

假设模型记住了一群人的体重：

原版：[55.3kg, 61.7kg, 48.9kg]（精确到小数点）
量化版：[55kg, 62kg, 49kg]（四舍五入取整）

误差就像体重秤的±0.5kg，不影响判断「是否超重」

2.2 为什么要模型量化？

1、体积暴减

原模型像装满矿泉水瓶的箱子（500MB）
量化后像压扁的易拉罐（125MB）

2、速度起飞

原来用大象运货（FP32计算）
现在换快递小车（INT8计算）

NVIDIA显卡上推理速度提升2-4倍

3、省电耐耗

原本手机跑模型像开空调（耗电快）
量化后像开电风扇（省电60%）

2.3 如何进行模型量化？

1、划定范围

找出最轻48.9kg和最重61.7kg
就像量身高要站在标尺前

2、标刻度

把48.9-61.7kg映射到0-100的整数
公式：量化值 = round( (原值 - 最小值) / 步长 )
步长 = (61.7-48.9)/100 = 0.128

3、压缩存储

55.3kg → (55.3-48.9)/0.128 ≈ 50 → 存为整数50
使用时还原：50×0.128+48.9 ≈ 55.3kg
误差控制：就像买菜抹零，5.2元算5元，差2毛不影响做菜

2.4 常用量化方式

1、事后减肥法（训练后量化）

适用场景：模型已经训练好，直接压缩
操作：像用榨汁机把水果变成果汁（保持营养但损失纤维）

import torch


# 准备模型（插入量化模块）
model.eval()  # 确保模型处于评估模式
model.qconfig = torch.quantization.default_qconfig  # 设置默认量化配置
quantized_model = torch.quantization.prepare(model)  # 插入观察器


# 收集校准数据
for data, _ in calibration_data:
    quantized_model(data.to('cpu'))  # 在 CPU 上运行，避免对模型结构的影响


quantized_model = torch.quantization.convert(quantized_model)  # 转换为量化模型

优点：快！5分钟搞定
缺点：可能损失关键精度

2、健康瘦身法（量化感知训练）

适用场景：训练时就控制模型「体重」
操作：像健身教练全程监督，边训练边控制饮食

# PyTorch示例（训练时插伪量化节点）
model.qconfig = torch.ao.quantization.get_default_qat_qconfig('fbgemm')
model = torch.ao.quantization.prepare_qat(model)
# 正常训练...
model = torch.ao.quantization.convert(model)

优点：精度更高（像保留肌肉的减肥）
缺点：要重新训练（耗时久）

3、混合套餐法（混合精度量化）

核心思想：重要部分用高精度，次要部分用低精度

例如：

人脸识别：眼睛区域用FP16，背景用INT8

语音识别：关键词用16bit，静音段用4bit

虽然说量化后模型不如原模型精度效果好，但是推理性能的提升相较性能损失在可控范围内，性价比上量化是更优的。

LLM「想太多」有救了！高效推理让大模型思考过程更精简

LLM的推理能力显著增强，然而，这个「超级大脑」也有自己的烦恼。有时候回答会绕好大一个圈子，推理过程冗长又复杂，虽能得出正确答案，但耗费了不少时间和计算资源。比如问它「2加3等于多少」，它可能会从数字的概念、加法原理开始，洋洋洒洒说上一大通，这在实际应用中可太影响效率啦。

4/7/2025 9:23:00 AM

新智元

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

一、Ollama 是什么？ Ollama 是一个开源的本地大模型部署工具，旨在简化大型语言模型（LLM）的运行和管理。通过简单命令，用户可以在消费级设备上快速启动和运行开源模型（如 Llama、DeepSeek 等），无需复杂配置。

4/8/2025 3:22:00 AM

wayn

"是我创造了第一个LLM"！Kaggle前首席科学家一句话引发AI学术圈考古行动

论如何在技术圈争论中一句话噎到对方：哥们，是我创造了第一个大语言模型。发言者Jeremy Howard为澳大利亚昆士兰大学名誉教授、曾任Kaggle创始总裁和首席科学家，现answer.ai与fast.ai创始人，。事情的起因是有人质疑他最近的项目llms.txt在帮助大模型爬取互联网信息上并没太大作用，从而引发了这段争论，迅速引起众人围观。

4/9/2025 9:23:00 AM

量子位

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型全能且实用！实战测评谷歌最新模型Gemini 2.5 Pro 大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略 50组多风格提示词，全面测评Midjourney V7生图效果！ Deepseek 突破 AI 训练烧钱魔咒：1.2 万美元 1/525 成本 MT-Bench 跑分媲美 GPT-4o 斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习模态苹果 AI视频驾驶文本搜索 xAI 人形机器人 Copilot 大语言模型神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 架构

顶部

如何理解模型的蒸馏和量化

一、模型蒸馏

1.1 什么是模型蒸馏

1.2 蒸馏的核心原理

1.3 蒸馏的工作原理

1.4 举个例子

1.5 为什么蒸馏有效？

1.6 模型蒸馏的具体实现

二、模型量化

2.1 什么是模型量化

2.2 为什么要模型量化？

2.3 如何进行模型量化？

2.4 常用量化方式

相关资讯

LLM「想太多」有救了！高效推理让大模型思考过程更精简

大模型部署工具 Ollama 使用指南：技巧与问题解决全攻略

"是我创造了第一个LLM"！Kaggle前首席科学家一句话引发AI学术圈考古行动