LASER

给Transformer降降秩,移除特定层90%以上组件LLM性能不减

MIT、微软联合研究:不需要额外训练,也能增强大语言模型的任务性能并降低其大小。在大模型时代,Transformer 凭一己之力撑起了整个科研领域。自发布以来,基于 Transformer 的 LLM 在各种任务上表现出卓越的性能,其底层的 Transformer 架构已成为自然语言建模和推理的最先进技术,并在计算机视觉和强化学习等领域显示出强有力的前景。然而,当前 Transformer 架构非常庞大,通常需要大量计算资源来进行训练和推理。 这是有意为之的,因为经过更多参数或数据训练的 Transformer 显
  • 1