解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念,现在有办法了。最近两天,马斯克和 LeCun 的口水战妥妥成为大家的看点。这两位 AI 圈的名人你来我往,在推特(现为 X)上相互拆对方台。LeCun 在宣传自家最新论文时,也不忘手动 @ 一把马斯克,并意味深长地嘱咐道:「马斯克,我们这项研究用来改善你家的 Grok 也没问题。」LeCun 宣传的这篇论文题目为《 Contextual Position Encoding: Learning to Count What’s Important 》,

即使最强大的 LLM 也难以通过 token 索引来关注句子等概念,现在有办法了。

最近两天,马斯克和 LeCun 的口水战妥妥成为大家的看点。这两位 AI 圈的名人你来我往,在推特(现为 X)上相互拆对方台。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

LeCun 在宣传自家最新论文时,也不忘手动 @ 一把马斯克,并意味深长地嘱咐道:「马斯克,我们这项研究用来改善你家的 Grok 也没问题。」

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

LeCun 宣传的这篇论文题目为《 Contextual Position Encoding: Learning to Count What’s Important 》,来自 Meta 的 FAIR。

骂战归骂战,这篇论文的重要性不言而喻。短短 24 小时之内就成为了 AI 领域最热门的论文之一。它有望解决如今大模型(LLM)最让人头疼的问题。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

论文地址:https://arxiv.org/pdf/2405.18719

总的来说,该研究提出了一种新的用于 transformer 的地位编码要领 CoPE(全称 Contextual Position Encoding),解决了标准 transformer 无法解决的计数和复制任意。传统的地位编码要领通常基于 token 地位,而 CoPE 允许模型根据内容和上下文来选择性地编码地位。CoPE 使得模型能更好地处理必要对输入数据结构和语义内容进行精细理解的任意。文章通过多个实验展示了 CoPE 在处理选择性复制、计数任意以及说话和编码任意中相对于于传统要领的优越性,尤其是在处理分布外数据和必要高泛化能力的任意上表现出更强的性能。

CoPE 为大型说话模型提供了一种更为高效和灵活的地位编码方式,拓宽了模型在自然说话处理领域的应用范围。

有网友表示,CoPE 的出现改变了在 LLM 中进行地位编码的游戏规则,此后,研究者能够在一个句子中精确定位特定的单词、名词或句子,这一研究非常令人兴奋。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

这篇论文主要讲了什么,我们接着看。

许多常见的数据源(例如文本、音频、代码)都是顺序序列(ordered sequences)。在处理此类序列时,顺序(ordering)信息至关重要。对于文本,地位信息不仅对于解码单词之间的含义至关重要,而且在其他尺度(例如句子和段落级别)上都是必需的。

作为当前大型说话模型 (LLM) 的主要支柱 Transformer 架构,依赖于注意力机制,而这种机制本身就缺乏顺序信息,因此,必要一种额外的机制来编码数据的地位信息。

先前有研究者提出了地位编码(PE,Position encoding),该要领通过为每一个地位分配一个嵌入向量,并将其添加到相应的 token 表示中来实现这一点。然而,当前的地位编码要领应用 token 计数来确定地位,因此无法推广到更高层次如句子。

为了将地位与更具有语义的单元(如单词或句子)联系起来,必要考虑上下文。然而,应用当前的地位编码要领无法实现这一点,因为地位寻址是独立于上下文盘算的,然后再与上下文寻址合并。

Meta 认为,地位与上下文寻址的这种分离是问题的根本所在,因此他们提出了一种新的 PE 要领,即上下文地位编码( CoPE ),将上下文和地位寻址结合在一起。

要领介绍

CoPE 首先应用上下文向量确定要计数的 token。具体来说,给定当前 token 作为查问向量,接着应用先前 token 的键向量盘算一个门值(gate value)。然后汇总这些门值,以确定每一个 token 相对于于当前 token 的相对于地位,如图 1 所示。

与 token 地位不同,上下文地位可以取分数值,因而不能具有指定的嵌入。相反,该研究插入赋值为整数值的嵌入来盘算地位嵌入。与其他 PE 要领一样,这些地位嵌入随后被添加到键向量中,因此查问向量可以在注意力操作中应用它们。由于上下文地位可能因查问和层而异,因此该模型可以同时丈量多个单元的距离。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

在 CoPE 中,地位是通过上下文相关的方式来丈量的,而不是简单的 token 计数。该要领的工作原理是首先决定在应用上下文向量丈量距离时应包含哪些 token。因此,对每一个查问 q_i 和键 k_j 对盘算门值

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

其中 j < i 且 σ 是 sigmoid 函数。门值为 1 表示该键将被计入地位丈量中,而 0 表示将被忽略。例如,要盘算 token i 和 j 之间的句子,仅对于诸如 “.” 之类的句子分隔 token,门值应为 1。门以查问为条件,如果必要,每一个查问可以有不同的地位丈量。软门控函数(soft gating function)允许微分,以便可以通过反向传播来训练系统。

然后,该研究通过添加当前 token 和目标 token 之间的门值来盘算地位值。

值得注意的是,如果门值始终为 1,则 p_ij = i − j + 1 ,并且恢复基于 token 的相对于地位。因此,CoPE 可以被视为相对于 PE 的泛化。然而,一般来说,p_ij 可以是特定单词或单词类型(如名词或数字)的计数、句子的数量或 Transformer 认为在训练期间有用的其他概念。

与 token 地位不同,地位值 p_ij 不限于整数,并且因为 sigmoid 函数的原因可以采用小数值。这意味着不能像相对于 PE 中那样应用嵌入层将地位值转换为向量。

首先,该研究为每一个整数地位 p ∈ [0, T] 分配一个可学习的嵌入向量 e [p],那么地位 p_ij 的嵌入将是两个最接近的整数嵌入的简单插值。

最后,盘算类似于如下等式的注意力权重。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

然而,在实践中,盘算和存储向量 e [p_ij ] 必要应用额外的盘算和内存。该研究通过首先盘算所有整数地位 p 的解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进乘法,再对结果值进行插值来提高效率:

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

如下方程 (4) 所示,p_ij 的最大值是上下文大小 T,这意味着必要 T + 1 个地位嵌入(包括地位 0)。然而,如果门被稀疏激活(例如盘算句子),则可以用更少的地位覆盖整个上下文 T。因此,该研究通过设置解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进,使得最大可能地位 p_max < T。 

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

CoPE 的多头扩展非常简单,因为每一个头都会独立执行自己的 CoPE。头之间的键和查问向量是不同的,这意味着它们可以实现不同的地位丈量。

实验结果

Flip-Flop 任意

Liu 等人 [2024] 提出了 Flip-Flop 说话建模任意,以揭示 Transformer 模型无法在长距离输入序列上进行稳健推理。

结果如表 2(左)所示。结果表明,CoPE 优于现有要领,使模型不仅可以学习分布内任意,还可以推广到 OOD 序列 —— 这是现有 PE 要领无法提供的属性。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

选择性复制任意

Gu 和 Dao [2023] 提出的选择性复制任意必要上下文感知推理才能进行选择性记忆。

表 2(右)中给出的结果显示,在分布内尝试集上,新要领 CoPE 可以解决该任意,而其他要领则无法解决。同样的,CoPE 在密集和稀疏 OOD 尝试集上都具有更好的泛化能力。空缺 token 的存在使得找到下一个要复制的 token 变得更加困难,但 CoPE 只能盘算非空缺 token,因此更加稳定。在每一个步骤中,它可以简单地复制距离为 256(非空缺)的非空缺 token。重复此操作 256 次将复制整个非空缺序列。

计数任意

计数比简单地回忆上一个实例更具挑战性,因为它必要在一定范围内更均匀的注意力。

结果见表 3 和图 2。具有相对于 PE 的基线模型很难学习此任意,尤其是当有多个变量必要跟踪时。绝对 PE 的表现更差。最佳表现来自 CoPE,在 1 个变量的情况下获得满分。对于 OOD 泛化,相对于 PE 表现出较差的泛化能力,而 CoPE 的泛化能力非常好,如表 4 所示。有关这些实验的标准差,请参见附录表 9。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

说话建模

为了在说话建模任意上尝试新要领,研究人员应用了 Wikitext-103 数据集,该数据集包含从 Wikipedia 中提取的 1 亿个 token。

表 5(左)中比较了不同的 PE 要领:绝对 PE 表现最差,CoPE 优于相对于 PE,与相对于 PE 结合应用时效果更佳。这表明,即使在一般说话建模中,CoPE 也能带来改进。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

接下来,作者尝试了 CoPE 推广到比训练上下文更长的上下文的效果。

结果如图 3 所示。相对于 PE 推广到更长的上下文效果不佳。相比之下,相对于上限版本的表现要好得多。然而 CoPE 的表现仍然优于它,当尝试上下文比训练上下文长得多时,差距会扩大(见图 3 右)。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

如图 4 所示,作者展示了应用 sep-keys 训练的模型的注意力图示例(gate 是用分离的键盘算的)。注意力图仅根据地位构建(它们必须与上下文注意力相乘才能得到最终的注意力),这能让我们更好地了解 CoPE 正在做什么。作者还进行了归一化,以便每一个查问的最大注意力权重始终为 1。首先,我们可以看到地位明显具有上下文相关性,因为无论它们的相对于地位如何,注意力都倾向于落在特定的 token 上。

仔细观察这些 token 会发现,注意力主要集中在最后一段(左)或部分(右)上。为清楚起见,实际的段落和部分边界用黑色加号标记。在 CoPE 中,这是可能的,因为一个注意力头可以计数段落,而另一个注意力头计数部分,然后它可以只关注地位 0。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

代码建模

作者通过对代码数据进行评估来进一步尝试 CoPE 的能力。与自然说话相比,代码数据具有更多的结构,并且可能对上下文学习更敏感。

结果总结在表 5(右)中。CoPE 嵌入的困惑度比绝对 PE 和 RoPE 分别提高了 17% 和 5%。将 RoPE 和 CoPE 嵌入结合在一起可以改善 RoPE,但不会比所提出的嵌入要领带来任何改进。

解决Transformer根本缺陷,CoPE论文爆火:所有大模型都能获得巨大改进

给TA打赏
共{{data.count}}人
人已打赏
应用

爆火ChatTTS突破开源语音天花板,3天斩获9k的Star量

2024-5-31 15:21:00

应用

AI实质创作开卷,为什么baidu文库成为超强玩家?

2024-5-31 16:00:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索