谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望

最近，来自澳大利亚蒙纳士大学、蚂蚁集团、IBM 研究院等机构的研究人员探索了模型重编程 (model reprogramming) 在大谈话模型 (LLMs) 上应用，并提出了一个全新的视角：高效重编程大谈话模型进行通用时序展望 –- 其提出的 Time-LLM 框架无需修改谈话模型即可实现高精度时序展望，在多个数据集和展望恣意中超越了传统的时序模型，让 LLMs 在处置惩罚跨模态的空儿序列数据时展现出色，就像大象起舞一般！近期，受到大谈话模型在通用智能范围的启发，「大模型时序 / 时空数据」这个新方向迸发出了许

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

近期，受到大谈话模型在通用智能范围的启发，「大模型 + 时序 / 时空数据」这个新方向迸发出了许多相关进展。当前的 LLMs 有潜力彻底改变时序 / 时空数据挖掘方式，从而促进城市、能源、交通、遥感等典型复杂系统的决策高效制定，并朝着更普遍的时序 / 时空分析智能形式迈进。

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

大模型，例如谈话和其他相关的基础模型，既可以训练，也可以巧妙地重新调整其用途，以处置惩罚一系列通用恣意和专用范围应用中的空儿序列和时空数据。来源：https://arxiv.org/pdf/2310.10196.pdf

最近的研究将大型谈话模型从处置惩罚自然谈话拓展到空儿序列和时空恣意范围。这种新的研究方向，即「大模型 + 时序 / 时空数据」，催生了许多相关进展，例如 LLMTime 直接利用 LLMs 进行零样本时序展望推理。尽管 LLMs 具备强大的学习和表示才能，能够无效地捕捉文本序列数据中的复杂模式和长期依赖关系，但作为专注于处置惩罚自然谈话的「黑匣子」，LLMs 在空儿序列与时空恣意中的应用仍面临挑战。相较于传统的空儿序列模型如 TimesNet，TimeMixer 等，LLMs 以其庞大的参数和规模可与「大象」相提并论。

因此，如何「驯服」这种在自然谈话范围训练的 LLMs，使其能够处置惩罚跨越文本模态的数值型序列数据，在空儿序列和时空恣意中发挥出强大的推理展望才能，已成为当前研究的关键焦点。为此，需要进行更深入的理论分析，以探索谈话和时序数据之间潜在的模式相似性，并无效地将其运用于特定的空儿序列和时空恣意。

本文阐述了如何通过重编程大谈话模型 (LLM Reprogramming) 进行通用时序展望。其提出了两项关键技术，即 (1) 时序输出重编程和 (2) 提醒做前缀，将时序展望恣意转换成一个可以由 LLMs 无效解决的「谈话」恣意，成功激活了大谈话模型做高精度时序推理的才能。

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

论文地址：https://openreview.net/pdf?id=Unb5CVPtae

论文代码：https://github.com/KimMeen/Time-LLM

1. 问题背景

时序数据在现实中广泛存在，其中时序展望在许多现实世界里的动态系统中具有非常重要意义，并已得到广泛研究。与自然谈话处置惩罚（NLP）和计算机视觉（CV）分别，其中单个大型模型可以处置惩罚多个恣意，时序展望模型往往需要专门设计，以满足分别恣意和应用场景的需求。虽然基于预训练的基础模型在 NLP 和 CV 范围取得了巨大的进展，但其在时序范围的发展仍受限于数据稀疏性。最近研究表明，大型谈话模型（LLMs）在处置惩罚复杂的标记序列时，具备可靠的模式识别和推理才能。然而，如何无效地对齐时序数据和自然谈话这两个模态，并利用大谈话模型本身的推理才能处置惩罚时序分析恣意，仍然是一个挑战。

2. 论文概述

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

在这项工作中，作家提出了 Time-LLM，它是一个通用的大谈话模型重编程（LLM Reprogramming）框架，将 LLM 轻松用于一般空儿序列展望，而无需对大谈话模型本身做任何训练。Time-LLM 首先使用文本原型（Text Prototypes）对输出的时序数据进行重编程，通过使用自然谈话表征来表示时序数据的语义信息，进而对齐两种分别的数据模态，使大谈话模型无需任何修改即可理解另一个数据模态背后的信息。

为了进一步增强 LLM 对输出时序数据和对应恣意的理解，作家提出了提醒做前缀（Prompt-as-Prefix，PaP）的范式，通过在时序数据表征前添加额外的上下文提醒与恣意指令，充分激活 LLM 在时序恣意上的处置惩罚才能。在这项工作中，作家在主流的时序基准数据集上进行了充分的实验，结果表明 Time-LLM 能够在绝大多数情况下超越传统的时序模型，并在少样本（Few-shot）与零样本（Zero-shot）学习恣意上获得了大幅提升。

这项工作中的主要贡献可以总结如下：

1. 这项工作提出了通过重编程大型谈话模型用于时序分析的全新概念，无需对主干谈话模型做任何修改。作家表明时序展望可以被视为另一个可以由现成的 LLM 无效解决的「谈话」恣意。

2. 这项工作提出了一个通用谈话模型重编程框架，即 Time-LLM，它包括将输出时序数据重新编程为更自然的文本原型表示，并通过声明性提醒（例如范围专家知识和恣意说明）来增强输出上下文，以指导 LLM 进行无效的跨域推理。该技术为多模态时序基础模型的发展提供了坚实的基础。

3. Time-LLM 在主流展望恣意中的表现始终超过现有最好的模型性能，尤其在少样本和零样本场景中。此外，Time-LLM 在保持出色的模型重编程效率的同时，能够实现更高的性能。大大释放 LLM 在空儿序列和其他顺序数据方面尚未开发的潜力。

3. 模型框架

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

如上方模型框架图中 ① 和 ② 所示，输出时序数据先通过 RevIN 归一化操作，然后被切分成分别 patch 并映射到隐空间。

时序数据和文本数据在表达方式上存在显著差异，两者属于分别的模态。空儿序列既不能直接编辑，也不能无损地用自然谈话描述，这给直接引导（prompting）LLM 理解空儿序列带来了重大挑战。因此，我们需要将时序输出特征对齐到自然谈话文本域上。

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

对齐分别模态的一个常见方法就是 cross-attention，如模型框架图中 ③ 所示，只需要把所有词的 embedding 和时序输出特征做一个 cross-attention（其中时序输出特征为 Query，所有词的 embedding 为 Key 和 Value）。但是，LLM 固有的词汇表很大，因此无法无效直接将时序特征对齐到所有词上，而且也并不是所有词都和空儿序列有对齐的语义关系。为了解决这个问题，这项工作对词汇表进行了线形组合来获取文本原型，其中文本原型的数量远小于原始词汇量，组合起来可以用于表示时序数据的变化特征，例如「短暂上升或缓慢下降」，如上图所示。

为了充分激活 LLM 在指定时序恣意上的才能，这项工作提出了提醒做前缀的范式，这是一种简单且无效的方法，如模型框架图中 ④ 所示。最近的进展表明，其他数据模式，如图像可以无缝地集成到提醒的前缀中，从而基于这些输出进行无效的推理。受这些发现的启发，作家为了使他们的方法直接适用于现实世界的空儿序列，提出了一个替代问题：提醒能否作为前缀信息，以丰富输出上下文并指导重新编程空儿序列补丁的转换？这个概念被称为 Prompt-as-Prefix (PaP) ，此外，作家还观察到它显著提高了 LLM 对下游恣意的适应才能，同时补充了补丁的重新编程。通俗点说，就是把空儿序列数据集的一些先验信息，以自然谈话的方式，作为前缀 prompt，和对齐后的时序特征拼接喂给 LLM，是不是能够提升展望效果？

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

上图展示了两种提醒方法。在 Patch-as-Prefix 中，谈话模型被提醒展望空儿序列中的后续值，以自然谈话表达。这种方法遇到了一些约束：（1）谈话模型在无外部工具辅助下处置惩罚高精度数字时通常表现出较低的敏感性，这给长期展望恣意的精确处置惩罚带来了重大挑战；（2）对于分别的谈话模型，需要复杂的定制化后处置惩罚，因为它们在分别的语料库上进行预训练，并且可能在生成高精度数字时采用分别的分词类型。这导致展望以分别的自然谈话格式表示，例如 [‘0’, ‘.’, ‘6’, ‘1’] 和 [‘0’, ‘.’, ‘61’]，表示 0.61。

在实践中，作家确定了构建无效提醒的三个关键组件：（1）数据集上下文；（2）恣意指令，让 LLM 适配分别的下游恣意；（3）统计描述，例如趋势、时延等，让 LLM 更好地理解时序数据的特性。下图给出了一个提醒示例。

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

4. 实验效果

我们在长程展望上经典的 8 大公开数据集上进行了全面的测试，如下表所示，Time-LLM 在基准比较中显著超过此前范围最优效果，此外对比直接使用 GPT-2 的 GPT4TS，采用 reprogramming 重编程思想以及提醒做前缀（Prompt-as-Prefix）的 Time-LLM 也有明显提升，表明了该方法的无效性。

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

此外我们在跨范围适应的框架内评估重编程的 LLM 的零样本 zero-shot 的学习才能，得益于重编程的才能，我们充分激活了 LLM 在跨范围场景的展望才能，如下表所示，Time-LLM 在 zero-shot 场景中也展示出非凡的展望效果。

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

5. 总结

大型谈话模型（LLMs）的快速发展极大地推动了人工智能在跨模态场景中的进步，并促进了它们在多个范围的广泛应用。然而，LLMs 庞大的参数规模和主要针对自然谈话处置惩罚（NLP）场景的设计，为其在跨模态和跨范围应用中带来了不少挑战。鉴于此，我们提出了一种重编程大模型的新思路，旨在实现文本与序列数据之间的跨模态互动，并将此方法广泛应用于处置惩罚大规模空儿序列和时空数据。通过这种方式，我们期望让 LLMs 如同灵活起舞的大象，能够在更加广阔的应用场景中展现其强大的才能。

欢迎感兴趣的朋友阅读论文 (https://arxiv.org/abs/2310.01728) 或者访问项目页面 (https://github.com/KimMeen/Time-LLM) 了解更多内容。

本项目获得了蚂蚁集团智能引擎事业部旗下 AI 创新研发部门 NextEvo 的全力支持，特别是得益于谈话与机器智能团队以及优化智能团队的密切协作。在智能引擎事业部副总裁周俊与优化智能团队负责人卢星宇的带领和指导下，我们携手圆满完成了这项重要成果。

{{userData.name}}已认证

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

改变LoRA的初始化方式，北大新方法PiSSA显著提升微调动机

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！