提高深度学习模型效率的三种模型压缩方法

译者 | 李睿审校 | 重楼近年来,深度学习模型在自然语言处理(NLP)和计算机视觉基准测试中的性能稳步提高。 虽然这些收益的一部分来自架构和学习算法的改进,但数据集大小和模型参数的增长是重要的驱动因素。 下图显示了top-1 ImageNet分类精度作为GFLOPS的函数,GFLOPS可以用作模型复杂性的指标。

提高深度学习模型效率的三种模型压缩方法

译者 | 李睿

审校 | 重楼

近年来,深度学习模型在自然语言处理(NLP)和计算机视觉基准测试中的性能稳步提高。虽然这些收益的一部分来自架构和学习算法的改进,但数据集大小和模型参数的增长是重要的驱动因素。

下图显示了top-1 ImageNet分类精度作为GFLOPS的函数,GFLOPS可以用作模型复杂性的指标。

提高深度学习模型效率的三种模型压缩方法

扩大数据规模和模型复杂性增加似乎是主要趋势,拥有数十亿个甚至万亿个参数的模型并不罕见。虽然这些大型模型具有令人印象深刻的性能,但这些模型的庞大规模使得它不可能用于边缘设备或延迟关键的应用程序。

这正是模型压缩发挥作用的地方。模型压缩的目标是减少模型的参数数量和/或延迟,同时力求将对模型性能的负面影响降至最低。虽然有一些方法,但它们可以分为三大类:

  • 剪枝(Pruning)
  • 量化(Quantization)
  • 知识蒸馏(KD)

虽然还有其他方法(例如低秩张量分解),但本文不涵盖这些方法。以下详细讨论这三种主要技术。

剪枝

通过剪枝,可以从神经网络中移除不太重要的权重(神经元连接)或层,从而使模型变得更小。一个简单的策略是,如果某个神经元连接的权重低于某个阈值,则将其移除。这被称为权重剪枝,它确保移除的是冗余的连接或者是对最终结果影响不大的连接。

同样,可以根据神经元重要性的一些指标来移除神经元本身,例如输出权重的L2范数。这被称为神经元剪枝,通常比权重剪枝更有效。

提高深度学习模型效率的三种模型压缩方法

与节点剪枝相比,权值剪枝会导致稀疏网络,这在GPU等硬件上很难优化。虽然它会减少内存占用和FLOPS,但可能不会降低延迟。剪枝的思想也可以扩展到卷积神经网络(CNN),其中过滤器/内核的相对重要性可以根据其L1/L2范数来确定,并且只能保留重要的过滤器。在实践中,剪枝是一个迭代过程,将在剪枝和微调模型之间交替进行。

使用这种方法,可以在性能下降最小的情况下,将网络参数减少50%以上,如下图所示:

提高深度学习模型效率的三种模型压缩方法

量化

基于量化的模型压缩背后的主要思想是降低模型权重的精度,以减少内存和延迟。通常情况下,深度学习模型在训练期间或训练后将其权重存储为32位浮点数(FP32)。通过量化,这些权重通常被转换为16位(FP16)或8位(INT8)精度,以便在运行时部署。

量化可以分为两类:

训练后量化(PTQ)

这涉及到训练后权重和激活的量化,并通过一个称为校准的过程来实现。该过程的目标是在最小化信息损失的同时,找出从原始到目标精度的映射。为了实现这一点,使用数据集中的一组样本,并在模型上运行推理,跟踪模型中不同激活的动态范围,以确定映射函数。

量化感知训练(QAT)

使用较低精度权重和激活进行训练的主要问题是没有正确定义梯度,因此无法进行反向传播。为了使用QAT解决这个问题,该模型模拟了前向传播过程中的目标精度,但使用后向传播的原始精度来计算梯度。

虽然PTQ易于实施并且无需重新训练模型,但它可能会导致性能下降。另一方面,QAT与PTQ相比通常具有更高的准确性,但其实施起来不那么容易,并且会增加训练代码的复杂性。

从数学的角度来看,给定权重/激活的量化和校准涉及确定两个值:比例因子和零点。假设想要将FP32转换为INT8:

复制
Python 
1 # max_int for INT8 would be 255 and min_int 0
2 # max_float, min_float are deteremined in the calibration process
3 scale = (max_float - min_float) / (max_int - min_int)
4
5 # to allow for both positive and negative values to be quantized
6 zero_point = round((0 - min_float) / scale)
7
8 int8_value = round(fp32_value / scale) + zero_point

知识蒸馏(KD)

顾名思义,知识蒸馏(KD)试图将原始模型(在这种情况下称为教师模型)中的知识提炼或转移到一个较小的模型(可以称之为学生模型)中。实现这一目标的方法有多种,但最常见的方法是尝试使教师模型的输出或中间特征表示与学生模型相匹配。有趣的是,使用真实标签和教师模型输出的软标签组合训练的学生模型,其性能优于仅使用真实标签训练的学生模型,有时甚至能达到教师模型的性能。对于这种行为的一种假设是,由于软标签包含比真实标签(硬标签,例如zero-shot)更多的信息,它有助于学生模型更好地泛化。

提高深度学习模型效率的三种模型压缩方法

知识蒸馏是一种更灵活的模型压缩技术,因为生成的模型可以具有与原始模型不同的架构,并且与剪枝或量化相比,具有更大的内存和延迟减少潜力。然而,它也是训练最复杂的技术,因为它涉及训练教师模型,然后设计和训练学生模型。

结论

在实践中,通常将多种压缩技术结合在一起(例如,知识蒸馏之后PTQ或剪枝)来实现所需的压缩和准确性结果。原文标题:Model Compression: Improving Efficiency of Deep Learning Models,作者:Inderjot Singh Saggu

相关资讯

多模态RAG技术:从语义抽取到VLM应用与规模化挑战

一、基于语义抽取的多模态 RAG多模态 RAG 的发展方向旨在构建一个高度集成的系统,能够无缝融合文本、图像和其它多媒体元素,为用户提供更丰富的信息交互体验。 实现多模态 RAG 系统的三种主要技术路径如下:传统对象识别与解析(雕花路线)传统的多模态文档处理首先会运用图像识别技术,如 OCR(Optical Character Recognition,光学字符识别),从图像中抽取出文字、表格和图片等元素。 之后,这些独立的对象会被进一步解析,转换成文本格式,以便于后续的信息检索与分析。

ICLR 2024 Spotlight|厦门大学、Intel、大疆联合出品,从网络视频中学习零样本图像匹配大模型

图像匹配是计算机视觉的一项基础任务,其目标在于估计两张图像之间的像素对应关系。图像匹配是众多视觉应用如三维重建、视觉定位和神经渲染 (neural rendering) 等的基础和前置步骤,其精确度和效率对于后续处理十分重要。传统算法(SIFT)在面临长基线或极端天气等复杂场景时,其匹配的准确度和密度往往有限。为了解决这些问题,近年来,基于深度学习的匹配模型逐渐流行。然而,由于缺乏大规模且多样化的具有真值标签的训练数据,目前的匹配模型通常是在 ScanNet 和 MegaDepth 上分别训练室内和室外两个模型。这

优化计算机视觉和图像处理中的图像格式:OpenCV 中的 PNG、JPG 和 WEBP

在计算机视觉和图像处理应用中,选择正确的图像格式可以影响性能和质量。 无论你是在预处理数据以训练深度学习模型、在实时系统上运行推理,还是处理大型数据集,了解PNG、JPG和WEBP的优势和劣势可以帮助你做出明智的选择。 让我们深入了解每种格式在图像处理方面的独特特性,并提供实际的代码示例,展示如何使用Python中的OpenCV加载和保存这些格式。