自适应剪枝算法

COLING24｜自适应剪枝让多模态大模型加速2-3倍，哈工大等推出SmartTrim

基于 Transformer 结构的视觉语言大模型（VLM）在各种下游的视觉语言任务上取得了巨大成功，但由于其较长的输入序列和较多的参数，导致其相应的计算开销地提升，阻碍了在实际环境中进一步部署。为了追求更为高效的推理速度，前人提出了一些针对 VLM 的加速方法，包括剪枝和蒸馏等，但是现有的这些方法大都采用静态架构，其针对不同输入实例采用同样的计算图进行推理，忽略了不同实例之间具有不同计算复杂性的事实：针对复杂的跨模态交互实例，自然需要更多计算才能完全理解图像和相关问题的复杂细节；相反，简单的实例则可以用更少的计算