Transformer为什么一定要添加一个Positional Encoding模块?

之前老喜欢死记硬背transformer的网络架构,虽然内容并不复杂,但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。 为了更好地理解为什么transformer一定需要有一个positional encoding,简单推了一下公式先说结论:没有Positional Encoding的transformer架构具有置换等变性。 证明如下:1.

之前老喜欢死记硬背transformer的网络架构,虽然内容并不复杂,但是发现这个transformer模块中的positional encoding在死记硬背的情况之下很容易被忽略。为了更好地理解为什么transformer一定需要有一个positional encoding,简单推了一下公式

先说结论:没有Positional Encoding的transformer架构具有置换等变性。

证明如下:

1. 对self-attn的公式推导

Transformer为什么一定要添加一个Positional Encoding模块?Transformer为什么一定要添加一个Positional Encoding模块?

其中的是可训练的权重矩阵。首先计算Query和Key之间的点积,得到注意力权重矩阵:

Transformer为什么一定要添加一个Positional Encoding模块?

然后计算自注意力输出:

Transformer为什么一定要添加一个Positional Encoding模块?

2. 假设对输入进行置换

Transformer为什么一定要添加一个Positional Encoding模块?

置换后的Query, Key, Value的公式分别为:

Transformer为什么一定要添加一个Positional Encoding模块?

注意力矩阵的计算则变化为:

Transformer为什么一定要添加一个Positional Encoding模块?

由于P是置换矩阵,满足=,且P=I,所以:

Transformer为什么一定要添加一个Positional Encoding模块?

所以最终的输出可以这样写:

Transformer为什么一定要添加一个Positional Encoding模块?

这样就可以证明,transformer架构在没有Positional Encoding计算的情况下具有置换等变性,换句话说,输入序列中元素的排列方式不会影响模型对它们的处理方式,只是输出的顺序相应地改变。

3. 添加Positional Encoding之后的影响

加入Positional Encoding之后,置换后的输入为:

Transformer为什么一定要添加一个Positional Encoding模块?

由于P是固定的,加入Positional Encoding之后,输入序列的置换将导致模型的输出发生变化,模型能够区分不用的序列:

Transformer为什么一定要添加一个Positional Encoding模块?

从公式上看,在没有位置编码的情况下,自注意力机制的计算只涉及输入向量的内容,不涉及任何位置信息,且对输入序列的置换是等变的。

加入位置编码后,输入向量包含了位置信息,打破了自注意力机制的置换等变性,使模型能够对序列中的元素位置敏感。

相关资讯

详解AI加速器(三):架构基础离不开ISA、可重构处理器……

在上一篇文章中,前苹果工程师、普林斯顿大学博士 Adi Fuchs 解释了为什么现在是 AI 加速器的黄金时代。在这篇文章中,我们将聚焦 AI 加速器的秘密基石——指令集架构 ISA、可重构处理器等。

华为云 CEO 张平安:中国的 AI 应追求在行业领域构筑大模型的全球领先地位

感谢2024 世界人工智能大会今日在上海世博中心开幕,华为常务董事、华为云 CEO 张平安表示,中国的 AI 发展离不开算力基础设施的创新,并且要敢于开放行业场景,让 AI 在行业应用上领先。张平安提出,中国的 AI 发展道路,追求的应该是在行业领域构筑大模型的全球领先地位。如果各行各业都积极拥抱 AI,积极地开放行业的业务场景,中国很有机会在 2B 领域构筑起全球的领先优势。以钢铁行业为例,目前盘古大模型已经在宝钢的一条热轧生产线上线,预测钢板精度提高 5%,每年有望多生产 2 万吨钢板,增收 9000 多万元。

英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。