挑战传统:无归一化层的 Transformer 架构新突破

在深度学习领域,归一化层被视为现代神经网络中不可或缺的组件之一。 最近,一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。 这项研究不仅提出了一种名为动态 tanh(Dynamic Tanh,DyT)的新技术,还展示了在不使用传统归一化层的情况下,Transformer 架构依然可以实现高效的训练和推理。

在深度学习领域,归一化层被视为现代神经网络中不可或缺的组件之一。最近,一项由 Meta FAIR 研究科学家刘壮主导的研究成果 ——“没有归一化层的 Transformer” 引发了广泛关注。这项研究不仅提出了一种名为动态 tanh(Dynamic Tanh,DyT)的新技术,还展示了在不使用传统归一化层的情况下,Transformer 架构依然可以实现高效的训练和推理。

归一化层,尤其是层归一化(Layer Normalization,LN),在过去的十年中对优化深度学习模型起到了至关重要的作用。LN 层通过将输入激活进行缩放和压缩,从而加速模型的收敛速度。然而,研究者们发现,LN 层的广泛使用并不是唯一的选择。他们的研究始于观察 LN 层的行为,提出了一种新的替代方法 DyT。这种元素级运算不仅能够模拟 LN 层的缩放和压缩效果,而且省去了复杂的激活数据计算。

云计算 互联网 元宇宙 (3)

图源备注:图片由AI生成,图片授权服务商Midjourney

在实验中,研究团队用 DyT 替换了多个 Transformer 架构中的传统归一化层,结果显示,使用 DyT 的模型能够稳定训练并获得更高的最终性能。更令人振奋的是,这种新方法通常不需要对原始架构进行超参数调整,降低了模型训练的复杂度。

研究者们通过对三个不同 Transformer 模型的前向传播过程进行分析,发现早期的 LN 层表现出线性关系,但在更深层次的 LN 层中,输入和输出之间的关系却呈现出与 tanh 函数相似的 S 型曲线。这种发现让研究团队感到惊讶,也为 DyT 的有效性提供了有力的实证支持。

刘壮表示,这项工作帮助他深入理解了归一化层的作用,并期待 DyT 能够为降低模型训练和推理的成本带来新的可能性。未来,DyT 有望成为效率导向的网络设计中重要的候选方案,推动深度学习的进一步发展。

相关资讯

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo

机器人策略学习的Game Changer?伯克利提出Body Transformer

过去几年间,Transformer 架构已经取得了巨大的成功,同时其也衍生出了大量变体,比如擅长处理视觉任务的 Vision Transformer(ViT)。本文要介绍的 Body Transformer(BoT) 则是非常适合机器人策略学习的 Transformer 变体。我们知道,物理智能体在执行动作的校正和稳定时,往往会根据其感受到的外部刺激的位置给出空间上的响应。比如人类对这些刺激的响应回路位于脊髓神经回路层面,它们专门负责单个执行器的响应。起校正作用的局部执行是高效运动的主要因素,这对机器人来说也尤为重

七彩虹推出 “虹光 AI” 助手接入全速版 DeepSeek

七彩虹科技正式宣布,其全新的 “虹光 AI” 智能模型助手已全面接入满血版 DeepSeek R1模型。 这一升级使得七彩虹的笔记本产品在性能和推理效率上得到了显著提升。 此次更新的 “虹光 AI” 助手,基于当前热门的 Transformer 架构,并采用了 MLA 与 Deep Seek MoE 技术,显著降低了内存占用,减少了缓存需求,从而提升了整体的推理效率。