神经架构搜索

用神经架构搜索给LLM瘦身，模型变小，准确度有时反而更高

用神经架构搜索给 LLM 瘦身，同等准确度可让 LLaMA2-7B 模型大小降 2 倍。大型语言模型（LLM）的一个主要特点是「大」，也因此其训练和部署成本都相当高，如何在保证 LLM 准确度的同时让其变小就成了非常重要且有价值的研究课题。对此，研究社区已经提出了多种多样的方法，比如剪枝、稀疏化、量化等，它们的效果也各不一样。近日，Intel Labs 发布了一项研究成果，宣称可使用神经架构搜索（NAS）高效地为 LLM 「瘦身」。他们基于 LLaMA2-7B 模型的实验表明，该技术不仅能降低模型大小，有时甚至还能