将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

AI
23年7月10日
编辑

机器之心

大语言模型处理上下文 token 的能力，是越来越长了。

今年 2 月，Meta 颁布的 LLaMA 大型语言模型系列，成功推动了开源聊天机器人的发展。因为 LLaMA 比之前颁布的很多大模型参数少（参数量从 70 亿到 650 亿不等），但本能更好，例如，最大的 650 亿参数的 LLaMA 模型可以媲美谷歌的 Chinchilla-70B 和 PaLM-540B，所以一经颁布让很多研究者兴奋不已。

然而，LLaMA 仅授权给学术界的研发人员应用，从而限制了该模型的商业应用。

因而，研究者开始寻找那些可用于商业用途的 LLaMA，UC 伯克利的博士生 Hao Liu 发起的项目 OpenLLaMA，就是其中一个比较热门的 LLaMA 开源复制品，其应用了与原始 LLaMA 完全相同的预处理和训练超参数，可以说 OpenLLaMA 完全按照 LLaMA 的训练步骤来的。最重要的一点是，该模型可商用。

OpenLLaMA 在 Together 公司颁布的 RedPajama 数据集上训练完成，有三个模型版本，分别为 3B、7B 和 13B，这些模型都经过了 1T tokens 的训练。结果显示，OpenLLaMA 在多项工作中的表现都与原始 LLaMA 相当，甚至有超越的情况。

除了不断颁布新模型，研究者对模型处理 token 的能力探索不断。

几天前，田渊栋团队的最新研究用不到 1000 步微调，将 LLaMA 上下文扩大到 32K。再往前追溯，GPT-4 支持 32k token（这相当于 50 页的文字），Claude 可以处理 100k token （大概相当于一键总结《哈利波特》第一部）等等。

现在，一个新的基于 OpenLLaMA 大型语言模型来了，它将上下文的长度扩大到 256k token，甚至更多。该研究由 IDEAS NCBR 、波兰科学院、华沙大学、 Google DeepMind 联合完成。

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

LongLLaMA 基于 OpenLLaMA 完成，微调方法采用 FOT （ Focused Transformer ）。本文表明，FOT 可以用于对已经存在的大型模型从事微调，以扩大其上下文长度。

该研究以 OpenLLaMA-3B 和 OpenLLaMA-7B 模型为起点，并应用 FOT 对它们从事微调。由此产生的模型称之为 LONGLLAMAs，能够在其训练上下文长度之外从事外推（甚至可以达到 256K），并且在短上下文工作上还能保持本能。

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

项目地址：https://github.com/CStanKonrad/long_llama

论文地址：https://arxiv.org/pdf/2307.03170.pdf

有人将这一研究形容为 OpenLLaMA 的无限上下文版本，借助 FOT，模型很容易外推到更长的序列，例如在 8K token 上训练的模型，可以很容易外推到 256K 窗口大小。

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

本文用到了 FOT 方法，它是 Transformer 模型中一种即插即用的扩大，可用于训练新模型，也可对现有的较大模型从事更长上下文微调。

为了达到这一目的，FOT 应用了影象注意力层和跨批次（crossbatch）训练过程：

影象注意力层使模型能够在推理时从外部存储器中检索信息，从而有效地扩大了上下文；

跨批次训练过程使模型倾向于学习（键，值）表示，这些表示对于影象注意力层的应用非常简便。

有关 FOT 架构的概述，请参见图 2：

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

下表为 LongLLaMA 的一些模型信息：

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

最后，该项目还提供了 LongLLaMA 与原始 OpenLLaMA 模型的比较结果。

下图为 LongLLaMA 一些实验结果，在密码检索工作上，LongLLaMA 取得了良好的本能。具体而言，LongLLaMA 3B 模型远远超出了它的训练上下文长度 8K，对于 token 为 100k 时，准确率达到 94.5%，当 token 为 256k 时，准确率为 73%。

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

下表为 LongLLaMA 3B 模型在两个下游工作（TREC 问题分类和 WebQS 问题回答）上的结果，结果显示，在应用长上下文时，LongLLaMA 本能改进明显。

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

下表显示了即使在不需要长上下文的工作上，LongLLaMA 也能表现良好。实验在零样本设置下，对 LongLLaMA 和 OpenLLaMA 从事了比较。

将上下文长度扩大到 256k，无限上下文版本的OpenLLaMA来了？

了解更多细节，可参考原论文与项目。

给TA打赏

共{{data.count}}人

人已打赏

LLaMA LongLLaMA OpenLLaMA 上下文模型

SIGGRAPH 2023论文奖公布，山大、港大获奖，北大、腾讯光子获提名

2023-7-10 14:18:00

思考一下，联邦进修可以训练大说话模型吗？

2023-7-10 14:34:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview
11月20日
TOP2

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源
11月20日
TOP3

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊
11月20日
SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了
11月16日
微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合
11月18日
闲鱼注册用户突破 6 亿，AI 技术已应用于闲置交易全链路
11月18日
AI 助力脑瘤手术：10 秒内精准识别残留肿瘤
11月14日
讯飞星火多模态交互大模型上线，数字人、语音、视觉支持一键调用
11月14日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部