MetaFAIR

挑战传统:无归一化层的 Transformer 架构新突破

在深度学习领域,归一化层被视为现代神经网络中不可或缺的组件之一。 最近,一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。 这项研究不仅提出了一种名为动态 tanh(Dynamic Tanh,DyT)的新技术,还展示了在不使用传统归一化层的情况下,Transformer 架构依然可以实现高效的训练和推理。
  • 1