Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

只是换掉 Transformer 架构,立马性能全方位提升,问鼎同规模开源模型!(注意力机制不存在了)这就是最新 Falcon Mamba 7B 模型。它采用 Mamba 状态空间语言模型架构来处理各种文本生成任务。通过取消传统注意力机制,有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列,但内存需求不增加。无论上下文多长,生成每个 token 的时间基本一样。由此,Falcon Mamba 模型性能全方位提升,打败一众 Transformer 架构模型,如 Llama-3.1(8B)、Mistra

只是换掉 Transformer 架构,立马性能全方位提升,问鼎同规模开源模型!

(注意力机制不存在了)

这就是最新 Falcon Mamba 7B 模型。

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

它采用 Mamba 状态空间语言模型架构来处理各种文本生成任务。

通过取消传统注意力机制,有效提升了模型处理长序列时计算效率低下的问题。它可以处理无限长序列,但内存需求不增加。无论上下文多长,生成每个 token 的时间基本一样

由此,Falcon Mamba 模型性能全方位提升,打败一众 Transformer 架构模型,如 Llama-3.1(8B)、Mistral(7B)以及 Falcon-2(11B)。

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

如上成果由阿联酋阿布扎比技术创新研究所(TII)带来,他们正是 Falcon 模型的开发团队。

该系列共包含四个模型:基础版本、指令微调版本、4bit 版本和指令微调 4bit 版本

最新模型遵循 TII Falcon License 2.0 开放协议,它在 Apache 2.0 协议下。围观网友直呼:游戏规则要改变了!

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

全球首个开源 SSLM

在性能上,Falcon Mamba 7B 全方位超越一众开源模型。

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

它基于第一代 Mamba。

Mamba 是一种状态空间模型(SSM,State Space Model)。它结合了 RNN 和 CNN 的特点,通过引入一种选择机制,它允许模型根据当前的输入有选择地传播或忘记信息,从而提高处理文本信息的效率。

同时,它设计了一种硬件感知的并行算法,以递归模式运行,避免了 GPU 内存层级之间 IO 访问,提高计算效率。

最后它还简化了架构,将 SSM 架构和 Transformer 中的 MLP 块结合为单一的块。

从 Transformer 换到 Mamba,能够让 Falcon 模型可以处理任意长序列,但无需增加内存。尤其适合单个 A10 24GB GPU。

研究还讨论了两种不同的处理序列方法。

并行预填充方法适用于 GPU 并行处理,对内存需求较高;顺序填充方法适用于 SSM 模型,可以处理任意长度序列,从而不会受到内存限制。

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

为了确保大规模训练稳定,Falcon Mamba 模型使用了额外的 RMS 标准化层。

RMS 标准化层能够简化 LayerNorm 的计算过程,可减少计算量。

模型使用了 5500GT 数据训练,这些数据主要来自 RefedWeb 数据集以及公开数据。训练过程基本匀速,在训练后期增加了一小部分高质量策划数据,这有助于模型在最后阶段的优化。

在 H100 上,批大小为 1、提示词长度为 1-130k 生成 token 的测试中,Falcon Mamba 能够在生成新 token 时保持稳定的吞吐量,这意味着它的性能不受文本长度影响,可以稳定处理长序列,不会出现性能下降情况。

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理

Falcon Mamba 支持多种 Hugging Face API,包括 AutoModelForCausalLM、pipline。还推出了一个指令调优版本,通过额外 50 亿个 token 进行微调,可以让模型准确性更高。

在 Hugging Face、GitHub 上都可访问最新模型~

参考链接:

https://huggingface.co/blog/falconmamba#hardware-performance

本文来自微信公众号:量子位(ID:QbitAI),作者:明敏,原标题《换掉 Transformer,7B 开源模型立刻登顶!任意长序列都能处理》

相关资讯

非Transformer架构站起来了!首个纯无注意力大模型,超越开源巨头Llama 3.1

Mamba 架构的大模型又一次向 Transformer 发起了挑战。Mamba 架构模型这次终于要「站」起来了?自 2023 年 12 月首次推出以来,Mamba 便成为了 Transformer 的强有力竞争对手。此后,采用 Mamba 架构的模型不断出现,比如 Mistral 发布的首个基于 Mamba 架构的开源大模型 Codestral 7B。今天,阿布扎比技术创新研究所(TII)发布了一个新的开源 Mamba 模型 ——Falcon Mamba 7B。先来总结一波 Falcon Mamba 7B 的亮点

在12个视频理解任务中,Mamba先打败了Transformer

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。探索视频理解的新境界,Mamba 模型引领计算机视觉研究新潮流!传统架构的局限已被打破,状态空间模型 Mamba 以其在长序列处理上的独特优势,为视频理解领域带来了革命性的变革。来自南京

五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈

屹立不倒的 Transformer 迎来了一个强劲竞争者。在别的领域,如果你想形容一个东西非常重要,你可能将其形容为「撑起了某领域的半壁江山」。但在 AI 大模型领域,Transformer 架构不能这么形容,因为它几乎撑起了「整个江山」。自 2017 年被提出以来,Transformer 已经成为 AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。一个很明显的缺陷是:Transformer 模型中自注意力机制的计算量会随着上下文长度的增加呈平方级增长