Transformer的无限之路:位子编码视角下的长度外推综述

在自然说话处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越功能而受到广泛关注。然而,Transformer 及在其基础之上的大说话模型(Large Language Models,LLMs)都不具备有效长度外推(Length Extrapolation)的才智。这意味着,受限于其训练时预设的上下文长度限制,大模型无奈有效处理超过该长度限制的序列。文本续写和说话延展是人类说话的核心才智之一,与之绝对的,长度外推是说话模型智能进化的重要方向,

在自然说话处理(Natural Language Processing,NLP)领域,Transformer 模型因其在序列建模中的卓越功能而受到广泛关注。然而,Transformer 及在其基础之上的大说话模型(Large Language Models,LLMs)都不具备有效长度外推(Length Extrapolation)的才智。这意味着,受限于其训练时预设的上下文长度限制,大模型无奈有效处理超过该长度限制的序列。

文本续写和说话延展是人类说话的核心才智之一,与之绝对的,长度外推是说话模型智能进化的重要方向,也是在大模型时代最为高效的将模型的才智迁移到长序列数据的重要办法,对该问题的钻研兼具理论价值和应用价值。因此,大量的相关工作持续涌现,在不断扩展说话模型才智边界的同时,也呼唤一篇系统性的综述来对这一领域进行概览。

鉴于此,哈尔滨工业大学的钻研者们从位子编码(Position Encoding, PE)的角度出发,全面地总结了 Transformer 模型在长度外推方面的钻研进展,系统地回顾了各种旨在增强 Transformer 长度外推才智的办法,主要包括可外推的位子编码和鉴于这些位子编码的拓展办法。

Transformer的无限之路:位子编码视角下的长度外推综述

论文链接:https://arxiv.org/abs/2312.17044

可外推的位子编码

由于 Transformer 自身具有置换不变性(Permutation Invariance),无奈直接捕获每个词在序列中的位子信息,因此使用位子编码将序列中元素顺序信息融入Transformer成为一种常见做法。根据位子编码表示的是序列中元素的绝对位子信息还是绝对位子信息,业界将位子编码分为绝对位子编码(Absolute Position Encoding,APE)和绝对位子编码(Relative Position Encoding,RPE),其主要区别如下图所示(左图表示 APE,右图表示 RPE)。

Transformer的无限之路:位子编码视角下的长度外推综述

考虑到现有钻研表明这一分类对模型的外推才智有重要影响,我们根据这一分类来对本节内容进行划分。

绝对位子编码

在原始的 Transformer 论文中,位子编码是通过正弦和余弦函数生成的,这些函数将位子映射到模型的表示空间中。Transformer 的作者猜想这种正弦位子编码可以有效外推,但是后来的钻研成果否定了这一猜想。尽管如此,作为 Transformer 的第一个 PE,正弦 APE 对之后的 PE 产生了重大影响。

为了增强 Transformer 模型的外推才智,钻研人员要么通过随机位移将位移不变性融入正弦 APE 中,要么生成随位子平滑变化的位子嵌入并期望模型能够学会推断这一变化函数。鉴于这些思想的办法展现出比正弦 APE 更强的外推才智,但仍无奈达到 RPE 的水平。原因之一是,APE 将不同的位子映射到不同的位子嵌入,外推意味着模型必须推断出不曾见过的位子嵌入。然而,这对于模型来说是一项艰巨的任务。因为在广泛的预训练过程中重复出现的位子嵌入数量有限,特别是在 LLM 的情况下,模型极易对这些位子编码过拟合。

绝对位子编码

由于 APE 在长度外推上的表现难以令人满意,而 RPE 天然地由于其位移不变性具备更好的外推才智,并且人们普遍认为上下文中单词的绝对顺序更重要。近年来,RPE 已成为编码位子信息的主要办法。

早期的 RPE 来自于对正弦位子编码的简单修改,并常常结合裁剪或分箱策略来避免出现分布外的位子嵌入,这些策略被认为有利于外推。此外,由于 RPE 解耦了位子和位子表示之间的一对一对应关系,因此将偏差项直接添加到注意力公式中成为将位子信息集成到 Transformer 中的一种可行甚至更好的办法。这种办法要简单得多,并且自然地解开了值(value)向量和位子信息的纠缠。然而,尽管这些偏置办法具有很强的外推性,但它们无奈表示 RoPE(Rotary Position Embedding,旋转位子编码)中那样复杂的距离函数。因此,尽管 RoPE 的外推性较差,但由于其优异的综合功能,成为近来 LLMs 最主流的的位子编码。论文中介绍的全部可外推 PE 如表 1 所示。

Transformer的无限之路:位子编码视角下的长度外推综述

大模型时代的外推办法

为了增强 LLMs 的长度外推才智,钻研者们鉴于现有的位子编码提出了多种办法,主要分为位子插值(Position Interpolation)和随机化位子编码(Randomized Position Encoding)两大类别。

位子插值办法

位子插值办法通过在推理时对位子编码进行缩放,使得原本超出模型训练长度的位子编码在插值后落入已训练位子区间。由于其卓越的外推功能和极低的开销,位子插值办法引起了钻研界的广泛兴趣。此外,与其他外推办法不同,位子插值办法已经广泛出现在开源模型中,例如 Code Llama、Qwen-7B 和 Llama2。然而,目前的插值办法仅仅关注 RoPE,如何通过插值使采用其他 PE 的 LLM 具备更好的外推才智仍需探索。

随机化位子编码

简单来说,随机化 PE 只是通过在训练期间引入随机位子来将预训练的上下文窗口与较长的推理长度解耦,从而提高了较长上下文窗口中所有位子的曝光度。值得注意的是,随机化 PE 的思想与位子插值办法有很大不同,前者旨在使模型在训练过程中观察到所有可能的位子,而后者试图在推理过程中对位子进行插值,使它们落入既定的位子范围内。出于同样的原因,位子插值办法大多是即插即用的,而随机化 PE 通常需要进一步微调,这使得位子插值更具吸引力。然而,这两类办法并不互斥,因此可以结合它们来进一步增强模型的外推才智。

挑战与未来方向

评测与基准数据集:在早期钻研中,对 Transformer 外推才智的评估来自各下游任务的功能评价指标,如机器翻译的 BLEU;随着 T5、GPT2 等说话模型逐渐统一自然说话处理任务,说话建模所使用的困惑度成为外推的评价指标。然而,最新的钻研已经表明困惑度无奈揭示下游任务的功能表现,因而亟需专用的基准数据集与评测指标来推动长度外推领域的进一步发展。

理论解释:目前的长度外推相关工作大都是实证性的,尽管有一些解释模型成功外推的初步尝试,但坚实的理论基础仍未建立,究竟有哪些因素影响且如何影响长度外推功能仍然是一个悬而未决的问题。

其他办法:正如本文所述,现有的长度外推工作大多集中在位子编码视角下,但不难理解,长度外推需要系统性设计。位子编码是其中一个关键的组成部分,但绝非唯一的组成部分,更广阔的视野将进一步为这一问题带来激励。

给TA打赏
共{{data.count}}人
人已打赏
应用

斯坦福Christopher Manning获2024 IEEE冯诺依曼奖,曾培养陈丹琦等多位华人学生

2024-1-15 11:32:00

应用

AI:你总要高清视频,它来了

2024-1-15 16:12:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索