Llama-3.1-Minitron 4B

英伟达玩转剪枝、蒸馏：把Llama 3.1 8B参数减半，性能同尺寸更强

小模型崛起了。上个月，Meta 发布了 Llama 3.1 系列模型，其中包括 Meta 迄今为止最大的 405B 模型，以及两个较小的模型，参数量分别为 700 亿和 80 亿。Llama 3.1 被认为是引领了开源新时代。然而，新一代的模型虽然性能强大，但部署时仍需要大量计算资源。因此，业界出现了另一种趋势，即开发小型语言模型 (SLM)，这种模型在许多语言任务中表现足够出色，部署起来也非常便宜。最近，英伟达研究表明，结构化权重剪枝与知识蒸馏相结合，可以从初始较大的模型中逐步获得较小的语言模型。