言语模型是如何感知时光的?「时光向量」了解一下

言语模型究竟是如何感知时光的?如何利用言语模型对时光的感知来更好地控制输出甚至了解我们的大脑?最近,来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明,时光变化在一定程度上被编码在微调模型的权重空间中,并且权重插值可以帮助自定义言语模型以适应新的时光段。具体来说,这篇论文提出了时光向量(time vectors)的概念,这是一种让言语模型适应新时光段的简单方法。论文发布后立即引起了一些研究者的注意。新加坡海事智能公司 Greywing 联合创始人、CTO Hrishi Olickel 称

言语模型究竟是如何感知时光的?如何利用言语模型对时光的感知来更好地控制输出甚至了解我们的大脑?最近,来自华盛顿大学和艾伦人工智能研究所的一项研究提供了一些见解。他们的实验结果表明,时光变化在一定程度上被编码在微调模型的权重空间中,并且权重插值可以帮助自定义言语模型以适应新的时光段。

言语模型是如何感知时光的?「时光向量」了解一下

具体来说,这篇论文提出了时光向量(time vectors)的概念,这是一种让言语模型适应新时光段的简单方法。论文发布后立即引起了一些研究者的注意。新加坡海事智能公司 Greywing 联合创始人、CTO Hrishi Olickel 称赞这篇论文是他今年读过最好的论文之一。

言语模型是如何感知时光的?「时光向量」了解一下

他将本文的核心步骤概括为:

获取 Twitter 和新闻数据,并按年份和月份举行分类;

选择一个 LLM,并按月或按年对其副本分别举行微调,更新模型权重;

从原始 LLM 的权重中分别减去微调后模型的权重,得到「时光向量」。

权重差值此时可以作为一种向量,用于探索模型在这段时光内学到了什么。那么具体来说能用这个向量做些什么呢?

言语模型是如何感知时光的?「时光向量」了解一下

首先,可以检查微调是否有效 —— 从结果来说微调确实有效。模型困惑度和 F1 值强烈表明,当输入的数据符合微调后的时光时,恣意机能有相应的提升!

言语模型是如何感知时光的?「时光向量」了解一下

同样有趣的是,随着训练数据时光的推移,模型的机能呈线性下降。这一点在月份粒度和年份粒度上的结果都是如此。同时在一定月份训练的模型在同年其他某几个月份的表现也会相对较好(如下图中的对角线条纹现象)。

言语模型是如何感知时光的?「时光向量」了解一下

Hrishi Olickel 猜想这是由于语义上存在的类似性(相同的月份名称),不是因为模型产生了深层次的理解。并且如果能研究一下不同模型对应层之间的差值有多大,也许就能知道这种影响有多深。同样有趣的是向量的组织方式。

言语模型是如何感知时光的?「时光向量」了解一下

Hrishi Olickel 认为能够提出一个存在内部时光的模型,是相当惊人的。人类到现在都不知道时光是如何在大脑中工作的,但如果我们是言语驱动的学习者(如 LLM),而「意识」是一个内心里循环启动的「进程」,那么人和 LLM 可能会有类似之处。

更有趣的地方在于,有了这些向量之后,就可以在它们之间举行插值,从而在没有举行微调的年份也获得较好的机能!向量之间的插值是简单的算术运算 —— 系数加法。

言语模型是如何感知时光的?「时光向量」了解一下

言语模型是如何感知时光的?「时光向量」了解一下

言语模型是如何感知时光的?「时光向量」了解一下

与之前的基于恣意举行训练得到的模型权重向量一样,这种插值方法可能是在找出真正的迁移学习之前,可行的训练方法之一。如果能从微调中举行插值,就能对模型输出举行精细且低成本的控制,省去微调的成本和时光。

基于此,Hrishi Olickel 提出了几个猜想:

这项工作是在标准预训练模型(三种规模的 T5)上完成的。如果在开始训练模型时设置一些约束条件,强制对隐空间中的概念和时光举行更好的聚类,那么这种方法很可能会带来更强的结果。

另一个可能会有趣的探索是通过观察模型的激活情况来了解对应的时光段。

论文中依靠模型从 prompt 中「找出」时光和概念,并激活正确的部分。如果加入一些模块也许会有意想不到的效果,比如类似于 MoE 风格的路由。路由经过训练后,可以在同一模型的不同微调版本之间举行 token-to-token 的转换。

言语模型是如何感知时光的?「时光向量」了解一下

Hrishi Olickel 认为这个章节非常有趣。从这段文字中不能确定他们的意思是否是交换权重时只交换插值,如果是并且能奏效,那就太棒了。

Hrishi Olickel 表示,对人工智能(至少是基于言语模型的人工智能)的新理解来自于我们能够实时编辑和利用这些模型权重的能力 —— 他强烈怀疑(或希望)其中一些能力将帮助我们理解人类的大脑。 

以下是论文的具体内容。

论文概览

时光变化是言语的一个基本特征。正如本文第 3 章中所提到的,时光变化在言语模型开发中表现为时光错位(temporal misalignment),即训练数据和测试数据的时光偏差会导致模型在时光段不同的情况下机能大幅下降。这就需要采用适应技术,根据需要定制一定时光段的模型。然而,由于时光尺度众多,而且可能无法获得目标时光段的数据,因此设计此类技术十分困难。

最近的研究表明,神经网络的行为可以通过微调模型参数之间的闭式插值举行编辑。本文证明了权重空间的插值也可用于低成本地编辑言语模型,创造模型在不同时期的行为。

在第 4 章中,本文引入了时光向量,作为恣意向量的扩展(参见论文「Editing Models with Task Arithmetic」)。即在单个时光段的文本上对预训练的言语模型举行微调后,减去原预训练模型的权重,得到一个新向量。这个向量代表了权重空间的移动方向,可以提升模型在处理目标时光段文本时的机能。

在第 2 章中,本文利用按时光组织的数据集分析时光向量的结构,用于言语建模、分类和总结。研究结果一致表明,时光向量直观地分布在一个流形上;在时光上更接近的年份或月份产生的时光向量在权重空间上也更接近。同样,在 4.2 节中,本文还表明,年度和月度中的时光进化问题与时光向量之间的角度密切相关。

本文利用这种时光向量结构来引导模型,使其更好地覆盖新的时光段的数据。通过在两个时光向量之间举行插值,可以产生新的向量,这些向量应用到预训练模型时,可以提升模型在间隔月份或年份中的机能(第 4.3 节)。该结构还可用于跨时光段泛化一定恣意模型,并使用专门用于未标记数据的类似时光向量(第 4.4 节)。

本文的研究结果表明,微调模型的权重空间在一定程度上对时光变化举行了编码,权重插值可以帮助定制言语模型以适应新的时光段。本文作者开源了论文的代码、数据和超过 500 个根据一定时光段微调的模型。

多时光尺度上的时光错位

以年为单位的模型线性机能进化

之前关于时光错位的研究表明,模型会随着时光逐年进化。

为了证实这些结果,本文在每个数据集的每个年度分段上对 T5-small、T5-large 和 T5-3b 举行了微调。然后,在测试数据的每个其他时光分段上对这些经过调整的模型举行评估。

图 2 中以年为单位展示了时光错位热图,以及与年平均值相比的困惑度变化百分比(避免固有的年度机能差异)。与之前的研究结果一致,本文观察到每个恣意中都存在着线性进化的特点,无论模型的大小(更多详情请参见表 4)。与 早先研究结果一样,有些恣意(如政治派别分类)的进化比其他恣意更明显。原文附录中的 §A.2 中会对这些差异举行量化。

言语模型是如何感知时光的?「时光向量」了解一下

以月为单位的模型非线性机能进化

接下来,本文介绍了按月为单位的时光错位问题。这个问题尚未得到探讨。论文作者在 2012-2016 年间的 WMT 数据集上,按月份分段,并训练了 T5-small,从而得到了 58 个经过月份分类的模型。然后,在这些按月拆分的多个模型上,总共举行了 3,364 次验证实验。

如图 3 所示,在 WMT 数据集的一定月份上对模型举行微调和评估,可以发现时光错位的非线性模式,与每年的月份周期相对应。每隔 12 个月出现的平行于对角线的条纹可以捕捉到这种模式,这表明一定月份的模型在其他年份的相同月份往往表现更好。本文在附录图 12 中量化了这些困惑度差异。还在 §A.4 中总结了线上训练设置中的模型进化模式。 

言语模型是如何感知时光的?「时光向量」了解一下

基于时光向量的时光自适应

时光向量类似度与时光进化的相关性

本文在图 4 中用 UMAP 对时光向量举行了可视化,这表明在权重空间中更接近的时光向量在时光上也更接近。为了验证这一假设,本文测量了在不同时光段训练的每对时光向量的模型权重之间的余弦类似度(见附录第 A.1 节)。

本文的结果显示,这一类似度指标和机能(图 11)随着时光的推移,存在类似的衰减。

言语模型是如何感知时光的?「时光向量」了解一下

表 1 显示,余弦类似度与不同年份相对机能变化之间的相关性在 WMT 言语建模中最高。同时,这种相关性在不同规模的 T5 中也基本类似,在 WMT LM 中,T5-small 的得分高于 T5-large 和 T5-3b,且绝对值均不低于 0.6。

言语模型是如何感知时光的?「时光向量」了解一下

这种关系也延伸到按月划分的尺度下。在两两月度之间, WMT 时光向量的余弦类似度中可以看到周期性条纹(见附图 9)。与平均值(图 3)和余弦类似性矩阵(图 9)相比,月度机能下降呈负相关(Pearson r = -0.667; p < 10-16)。附录 A.5 中分析了整个在线训练过程中单年时光向量的余弦类似性。

这些结果表明,时光向量的组织方式可以预测其在相应时光段的表现。接下来将探讨如何利用这种结构,通过时光向量之间的插值来提升新时光段的机能。

对中间时光举行插值

存档问题或采样率低会导致数据集在最新和最旧示例之间出现间隙。在没有数据的情况下,由于时光上的错位,预计模型在这些 "间隙" 时光上的表现会更差。在本节中,可以发现通过对最新和最旧时光的模型举行微调,可以更好地让模型适应这些时光段。

方法 

对于两个时光矢量 τ_j , τ_k, 计算它们的插值言语模型是如何感知时光的?「时光向量」了解一下。本节在最早年份时光向量 τ_0 和最晚年份时光向量 τ_n 之间举行内插,并对每个 α∈[0.1, 0.2, …, 1.0] 的时光 t_0, …, t_n 举行验证。

结果

如图 5 所示,在 WMT LM 和 PoliAff 恣意中,在起始年和结束年微调模型之间举行内插可以提升中间年份的机能。一般来说,中间年份(WMT LM 为 2014 年,PoliAff 为 2017 年)的改善幅度最大,而在更接近起始和结束时光的年份,改善幅度则会减小。不同设置下的改善模式也不尽相同,与 WMT LM 相比,PoliAff 在 α = 1.0 和 0.0 附近的机能变化更为平缓,而 NewsSum 在不同 α 之间的改善与验证年份之间的机能差异相比微乎其微。表 2 量化了这些变化,显示插值法缩小了时光对齐模型和错位模型之间的差距。PoliAff 的改善尤为显著,仅平均值就提升了近 8 个 macro-F1 百分点。

言语模型是如何感知时光的?「时光向量」了解一下

图 6 显示,这些结果扩展到按月划分的 WMT LM 后;可以在一年内 1 月和 12 月确定的时光向量之间举行插值,以提升这几个月的模型表现。每个月的最佳插值遵循一个直观的模式,1 月份模型的百分比越高,会导致前几个月的机能更好,反之亦然。 

言语模型是如何感知时光的?「时光向量」了解一下

生成未来的时光模型

标注数据集创建于过去,因此,依赖监督举行微调的言语模型很快就会过时。更新这些模型的成本可能很高,需要举行额外的微调,还需要从更多最新的文本中创建标注数据集。本节将介绍一种新技术,使用恣意类比算法,将在源时光段 j 上微调过的恣意模型,更新至目标时光段 k,并且只包含 j 中未标记数据。 

方法 

给定言语模型,其权重言语模型是如何感知时光的?「时光向量」了解一下言语模型是如何感知时光的?「时光向量」了解一下是根据 j、k 时光段的未标注文本微调的,而恣意一定模型的权重 θ_j 是根据 j 时光段的标注数据微调的,对向量举行如下运算:

言语模型是如何感知时光的?「时光向量」了解一下

本文在每个目标时光 t_k 上验证估计的 θ_k,遍历 α_1 ∈ [0.6, 0.8, . . 2.2]、α_2、α_3 ∈ [0.1, . . 0.6] 的所有组合,并报告与原始模型 θ_j 相比的最佳结果。本节使用 WMT LM 和 Twitter LM 时光向量,分别将 2012 年的 NewsSum 模型更新为 2013-2016 年,将 2015 年的 PoliAff 模型更新为 2016-2020 年。

结果 

恣意类比算法提升了 PoliAff 和 NewsSum 恣意在未来年份的机能。图 7 显示,随着目标年份和起始年份的错位越来越大,与起始年份的微调相比,改善幅度也越来越大。模型大小也会影响机能,T5-large 和 T5-3b 的改善幅度更大。在 PoliAff 中,T5- small 与基线相比没有改善,而 T5-large 恣意类比在 2016 和 2017 年的表现比基线差,在 2019 和 2020 年才有所改善。奇怪的是,作者发现只是缩放 α_1 也能提升模型完成未来几年恣意的机能。附录 A.6 中报告了 α 消减和其他两个分类恣意的结果。在这些恣意中,研究者观察到的结果大多类似,但也有因恣意而异的不一致之处。

言语模型是如何感知时光的?「时光向量」了解一下

更多细节请参见原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

只需1080ti,即可在遥感图象中对目标举行像素级定位!代码数据集已开源!

2024-1-5 19:00:00

工程

模型A:幸亏有你,我才不得0分,模型B:俺也一样

2024-1-8 11:51:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索