直接扩展到无比长，谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无比长输出，而不增加内存和盘算需求。使用该技术，研究者成功将一个 1B 的模型上下文长度提高到 100 万；应用到 8B 模型上，模型能处置惩罚 500K 的书籍择要任意。自 2017 年开创性研究论文《Attention is All Yo

不知 Gemini 1.5 Pro 是否用到了这项技术。

谷歌又放大招了，发布下一代 Transformer 模型 Infini-Transformer。

Infini-Transformer 引入了一种有效的方法，可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无比长输出，而不增加内存和盘算需求。使用该技术，研究者成功将一个 1B 的模型上下文长度提高到 100 万；应用到 8B 模型上，模型能处置惩罚 500K 的书籍择要任意。

自 2017 年开创性研究论文《Attention is All You Need》问世以来，Transformer 架构就一直主导着生成式人工智能领域。而谷歌对 Transformer 的优化设计最近比较频繁，几天前，他们更新了 Transformer 架构，发布 Mixture-of-Depths（MoD），改变了以往 Transformer 盘算模式。没过几天，谷歌又放出了这项新研究。

专注 AI 领域的研究者都了解内存的重要性，它是智能的基石，可以为 LLM 提供高效的盘算。然而，Transformer 和基于 Transformer 的 LLM 由于注意力体制的固有特性，即 Transformer 中的注意力体制在内存占用和盘算时间上都表现出二次复杂性。例如，对于批大小为 512、上下文长度为 2048 的 500B 模型，注意力键 – 值 (KV) 状况的内存占用为 3TB。但事实上，标准 Transformer 架构有时需要将 LLM 扩展到更长的序列（如 100 万 token），这就带来巨大的内存开销，并且随着上下文长度的增加，部署成本也在增加。

基于此，谷歌引入了一种有效的方法，其关键组成部分是一种称为 Infini-attention（无比注意力）的新注意力技术。不同于传统的 Transformer 使用部分注意力丢弃旧片段，为新片段释放内存空间。Infini-attention 增加了紧缩内存（compressive memory），可以将使用后的旧片段存储到紧缩内存中，输出时会聚合当前上下文信息以及紧缩内存中的信息，因而模型可以检索完整的上下文历史。

该方法使 Transformer LLM 在有限内存的情况下扩展到无比长上下文，并以流的方式处置惩罚极长的输出举行盘算。

实验表明，该方法在长上下文语言建模基准测试中的性能优于基线，同时内存参数减少了 100 倍以上。当使用 100K 序列长度举行训练时，该模型实现了更好的困惑度。此外该研究发现，1B 模型在 5K 序列长度的密钥实例上举行了微调，解决了 1M 长度的问题。最后，论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任意微调，在 500K 长度的书籍择要任意上达到了新的 SOTA 结果。

本文贡献总结如下：

引入了一种实用且强大的注意力体制 Infini-attention—— 具有长期紧缩内存和部分因果注意力，可用于有效地建模长期和短期上下文依赖关系；

Infini-attention 对标准缩放点积注意力（ standard scaled dot-product attention）举行了最小的改变，并通过设计支持即插即用的持续预训练和长上下文自适应；

该方法使 Transformer LLM 能够通过流的方式处置惩罚极长的输出，在有限的内存和盘算资源下扩展到无比长的上下文。