LLM用于时序猜测真的不行,连推理能力都没用到

言语模型真的能用于时序猜测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该能否定的。事实似乎也果然如此:强大如斯的 LLM 并不能很好地处理时序数据。时序,即空儿序列,顾名思义,是指一组按照空儿发生先后顺序进行排列的数据点序列。在很多领域,时序分析都很关键,包括疾病传播猜测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何利用大型言语模型(LLM)来分类、猜测和检测空儿序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的言语模型也能泛化用于空儿序列数据中的顺序依

言语模型真的能用于时序猜测吗?根据贝特里奇头条定律(任何以问号结尾的新闻标题,都能够用「不」来回答),答案应该能否定的。事实似乎也果然如此:强大如斯的 LLM 并不能很好地处理时序数据。

LLM用于时序猜测真的不行,连推理能力都没用到

时序,即空儿序列,顾名思义,是指一组按照空儿发生先后顺序进行排列的数据点序列。

在很多领域,时序分析都很关键,包括疾病传播猜测、零售分析、医疗和金融。在时序分析领域,近期不少研究者都在研究如何利用大型言语模型(LLM)来分类、猜测和检测空儿序列中的异常。这些论文假设擅长处理文本中顺序依赖关系的言语模型也能泛化用于空儿序列数据中的顺序依赖关系。这个假设并不令人意外,毕竟言语模型是现在机器学习领域的香饽饽。

那么,言语模型究竟能给传统时序工作带去多大助益?

近日,弗吉尼亚大学和华盛顿大学一个团队尝试解答了这一问题,并最终给出了一个简单却又重要的主张:对于时序猜测工作,利用言语模型的常用办法的表现都接近或劣于基本的融化办法,但前者所需的计算量比后者多几个数量级。

LLM用于时序猜测真的不行,连推理能力都没用到

论文标题:Are Language Models Actually Useful for Time Series Forecasting?

论文地址:https://arxiv.org/pdf/2406.16964

这些发现是该团队通过大量融化研究得到的,其中揭示出当前时序猜测研究中存在一个「令人担忧的趋势」。

但该团队也表示:「我们的目标并不是暗示言语模型永远无法用于空儿序列。」事实上,近期一些研究表明言语和空儿序列之间具有很好的互动潜力,可以处理空儿序列推理和社交理解等工作。

相反,他们的目标是强调这一惊人发现:对于已有的空儿序列工作,现有办法几乎没有用到预训练言语模型那与生俱来的推理能力。

实验设置

该团队利用了三种最先进的空儿序列猜测办法,并为 LLM 提出了三种融化办法:w/o LLM、LLM2Attn、LLM2Trsf。

为了评价 LLM 在空儿序列猜测工作上的有效性,他们在 8 个标准数据集上对这些办法进行了测试。

用于言语模型和空儿序列的参考办法

他们实验了三种近期的利用 LLM 进行空儿序列猜测的办法。见表 2,这些办法利用的基础模型为 GPT-2 或 LLaMA,同时利用了不同的对齐和微调策略。

LLM用于时序猜测真的不行,连推理能力都没用到

OneFitsAll:OneFitsAll(有时也被称为 GPT4TS)办法会先对输出空儿序列利用实例归一化和 patching 技术,然后将其馈送给一个线性层,以获得用于言语模型的输出表征。在训练期间,言语模型的多头注意力和前馈层会被解冻,而位置嵌入和层归一化会得到优化。最终层的作用是将言语模型的最终隐藏状态转换成猜测结果。

Time-LLM:利用 Time-LLM 时,输出空儿序列会被 patching 技术 token 化,并且多头注意力会将其与词嵌入的低维表征对齐。之后,将这个对齐过程的输出与描述性统计特征的嵌入一起输送给一个解冻的预训练言语模型。然后,将该言语模型的输出表征展平,并使其通过一个线性层,从而得到猜测结果。

LLaTA:LLaTA 嵌入输出空儿序列的方式是将每个通道都视为一个 token。该架构的一半是「文本分支」,其利用交叉注意力来将空儿序列表征与言语模型的词嵌入的低维表征对齐。然后将该表征传递给一个解冻的预训练言语模型,得到一个「文本式猜测」。同时,该架构的「空儿」分支会基于输出空儿序列为预训练言语模型学习一个低秩适应器,从而得到一个用于推理的「空儿猜测」。该模型包含考虑这些表征之间的相似度的额外损失项。

该团队提出的融化办法

对于基于 LLM 的猜测器,为了将 LLM 的影响隔离开,该团队提出了三种融化办法:移除 LLM 组件或将其替换成一个简单模块。

LLM用于时序猜测真的不行,连推理能力都没用到

具体来说,对于上述三种办法中的每一种,他们都进行了以下三项修改:

w/o LLM,见图 1b。完全移除言语模型,直接将输出 token 传递给参考办法的最终层。

LLM2Attn,见图 1c。将言语模型替换成单个随机初始化的多头注意力层。

LLM2Trsf,见图 1d。将言语模型替换成单个随机初始化的 Transformer 模块。

在上述融化研究中,猜测器的其余部分都保持不变(可训练)。比如,如图 1b 所示,在移除了 LLM 之后,输出编码会被直接传递给输出映射。而如图 1c 和 1d 所示,在将 LLM 替换成注意力或 Transformer 后,它们会与原始办法的剩余结构一起获得训练。

数据集和评价指标

基准数据集。评价利用了以下真实世界数据集:ETT(其包含 4 个子集:ETTm1、ETTm2、ETTh1、ETTh2)、Illness、Weather、Traffic、Electricity。表 1 给出了这些数据集的统计情况。另外还有 Exchange Rate、Covid Deaths、Taxi (30 min)、NN5 (Daily) 和 FRED-MD。

LLM用于时序猜测真的不行,连推理能力都没用到

评价指标。该研究报告的评价指标是猜测时序值和真实时序值之间的平均绝对误差(MAE)和均方误差(MSE)。

结果

具体来说,该团队探究了以下研究问题(RQ):

(RQ1)预训练言语模型能否有助于提升猜测本能?

(RQ2)基于 LLM 的办法能否值得其消耗的计算成本?

(RQ3)言语模型预训练能否有助于执行猜测工作的本能?

(RQ4)LLM 能否表征空儿序列中的顺序依赖关系?

(RQ5)LLM 能否有助于少样本学习?

(RQ6)本能从何而来?

预训练言语模型能否有助于提升猜测本能?(RQ1)

实验结果表明,预训练 LLM 对空儿序列猜测工作来说还不是很有用。

LLM用于时序猜测真的不行,连推理能力都没用到

LLM用于时序猜测真的不行,连推理能力都没用到

总体而言,如表 3 所示,在 8 个数据集和 2 个指标上,融化办法在 26/26 案例中优于 Time-LLM 办法,在 22/26 案例中优于 LLaTA,在 19/26 案例中优于 OneFitsAll。

总之,很难说 LLM 可以有效地用于空儿序列猜测。

基于 LLM 的办法能否值得其消耗的计算成本?(RQ2)

这里,根据这些办法的名义本能来评价它们的计算强度。参考办法中的言语模型利用了数亿乃至数十亿参数来执行空儿序列猜测。即使当这些言语模型的参数解冻时,它们在训练和推理时依然会有很大的计算开销。

举个例子,Time-LLM 有 6642 M 参数,在 Weather 数据集上耗时 3003 分钟才完成训练,而融化办法仅有 0.245 M 参数,平均训练空儿仅有 2.17 分钟。表 4 给出了在 ETTh1 和 Weather 数据集上训练其它办法的相关信息。

LLM用于时序猜测真的不行,连推理能力都没用到

至于推理空儿,这里的做法是除以最大批量大小,以估计每个示例的推理空儿。平均而言,相比于修改后的模型,Time-LLM、OneFitsAl、LLaTA 所用的推理空儿多 28.2、2.3、1.2 倍。

LLM用于时序猜测真的不行,连推理能力都没用到

图 3 给出了一些示例,其中绿色标记(融化办法)通常低于红色标记(LLM),并且集中于左侧,这说明它们计算成本更低但猜测本能更好。

总之,在空儿序列猜测工作上,LLM 的计算强度无法为本能带来相应的提升。

言语模型预训练能否有助于执行猜测工作的本能?(RQ3)

评价结果表明,对于空儿序列猜测工作而言,利用大型数据集进行预训练实在没有必要。为了检验预训练期间学到的知识能否给猜测本能带来有意义的提升,该团队实验了在空儿序列数据上,对 LLaTA 进行不同组合的预训练和微调的效果。

预训练 + 微调(Pre+FT):这是原始办法,即在空儿序列数据上微调预训练言语模型。对于这里的 LLaTA,做法是解冻基础言语模型,学习一个低秩适应器(LoRA)。

随机初始化 + 微调(woPre+FT):预训练得到的文本知识能否有助于空儿序列猜测?这里,随机初始化言语模型的权重(由此清除了预训练的效果),再在微调数据集上从头开始训练 LLM。

预训练 + 不利用微调(Pre+woFT):在空儿序列数据上进行微调又能给猜测本能带来多大提升呢?这里是解冻言语模型,同时放弃学习 LoRA。这能反映言语模型自身处理空儿序列的本能。

随机初始化 + 无微调(woPre+woFT):很明显,这就是将输出空儿序列随机投射到一个猜测结果。该结果被用作与其它办法进行比较的基准。

LLM用于时序猜测真的不行,连推理能力都没用到

整体结果见表 5。在 8 个数据集上,依照 MAE 和 MSE 指标,「预训练 + 微调」有三次表现最佳,而「随机初始化 + 微调」获得了 8 次最佳。这说明言语知识对空儿序列猜测的帮助有限。但是,「预训练 + 无微调」与基准「随机初始化 + 无微调」各自有 5 和 0 次最佳,这说明言语知识对微调过程的帮助也不大。

总之,预训练得到的文本知识对空儿序列猜测的帮助有限。

LLM 能否表征空儿序列中的顺序依赖关系?(RQ4)

大多数利用 LLM 来微调位置编码的空儿序列猜测办法都有助于理解序列中空儿步骤的位置。该团队预计,对于一个有优良位置表征的空儿序列模型,如果将输出的位置打乱,那么其猜测本能将会大幅下降。他们实验了三种打乱空儿序列数据的办法:随机混洗整个序列(sf-all)、仅随机混洗前一半序列(sf-half)、交换序列的前半和后半部分(ex-half)。结果见表 6。

LLM用于时序猜测真的不行,连推理能力都没用到

输出混洗对基于 LLM 的办法与其融化办法的影响差不太多。这说明 LLM 在表征空儿序列中的顺序依赖关系方面并没有什么突出能力。

LLM 能否有助于少样本学习?(RQ5)

评价结果表明,LLM 对少样本学习场景而言意义不大。

他们的评价实验是取用每个数据集的 10%,再训练模型及其融化办法。具体来说,这里评价的是 LLaMA(Time-LLM)。结果见表 7。

LLM用于时序猜测真的不行,连推理能力都没用到

LLM用于时序猜测真的不行,连推理能力都没用到

可以看到,有无 LLM 的表现差不多 —— 各自都有 8 个案例表现更好。该团队也利用基于 GPT-2 的办法 LLaTA 进行了类似的实验。结果见表 8,这里融化办法在少样本场景中的表现还优于 LLM。

本能从何而来?(RQ6)

这一节评价的是 LLM 空儿序列模型中常用的编码技术。结果发现,将 patching 和单层注意力组合起来是一种简单却有效的选择。

前面发现对基于 LLM 的办法进行简单的融化并不会降低其本能。为了理解这一现象的原因,该团队研究了 LLM 空儿序列工作中常用的一些编码技术,比如 patching 和分解。一种基本的 Transformer 模块也可用于辅助编码。

结果发现,一种组合了 patching 和注意力的结构在小数据集(空儿戳少于 100 万)上的表现优于其它大部分编码办法,甚至能与 LLM 办法媲美。

LLM用于时序猜测真的不行,连推理能力都没用到

其详细结构如图 4 所示,其中涉及将「实例归一化」用于空儿序列,然后进行 patching 和投射。然后,在 patch 之间利用一层注意力进行特征学习。对于 Traffic(约 1500 万)和 Electricity(约 800 万)等更大的数据集,则利用了基本 Transformer 的单层线性模型的编码表现更优。在这些办法中,最后还要利用单层线性层来投射空儿序列嵌入,从而得到猜测结果。

总之,patching 对编码而言非常重要。此外,基本的注意力和 Transformer 模块也能为编码带来有效助益。

给TA打赏
共{{data.count}}人
人已打赏
工程

ACL 2024 | 引领学术视听研究,上海交大、清华大学、剑桥大学、上海AILAB联合发布学术视听数据集M3AV

2024-7-6 10:35:00

工程

RAGFlow开源Star量破万,是时候思考下RAG的未来是什么了

2024-7-8 15:36:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索