一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！

编辑｜言征小模型王座一夜易主了！冷不防，英伟达就丢出了一个新混合架构，以后不再只是Transformer的天下了。日前，NVIDIA刚刚发布了Hymba-1.5B-Base，这是一个将Transformer注意力机制与状态空间模型（SSM）集成的小型语言模型。

编辑｜言征

小模型王座一夜易主了！冷不防，英伟达就丢出了一个新混合架构，以后不再只是Transformer的天下了。

日前，NVIDIA刚刚发布了Hymba-1.5B-Base，这是一个将Transformer注意力机制与状态空间模型（SSM）集成的小型语言模型。

这种全新的混合架构只使用1.5T的Tokens进行训练，性能、速度却全面超越了市面上主流的所有小模型！英伟达的科学家兼研究经理Pavlo Molchanov在X上宣布了这一最新发展。

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！图片

Hugging Face 的技术负责人及大型语言模型（LLMs）专家 Philipp Schmid 对此发展发表评论说：“Hymba 在仅使用1.5万亿个标记进行训练的条件下，性能超越了其他小型大型语言模型，如Meta 3.2或SmolLM v2。”

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！图片

1.双重架构、精确回忆、高效上下文

据“抱抱脸”上公开资料显示，Hymba-1.5B-Base是在今年年9月1日至2024年11月10日期间进行训练的，许可证方面则根据NVIDIA开放模型许可协议发布。

Hymba模型使用双重结构，具有精确回忆的注意力头和高效上下文总结的SSM头。

具体来讲，其特点在于采用了混合头并行架构，该架构将Transformer注意力机制与状态空间模型（SSM）相结合，以提高效率。注意力头提供高分辨率的回忆能力，而SSM头则实现高效的上下文总结。此外，模型还引入了可学习的Meta标记，这些标记被添加到提示之前，用于存储关键信息，并减轻与注意力机制相关的“被迫关注”负担。通过引入跨层键值（KV）共享和部分滑动窗口注意力，该模型得到了进一步优化，从而实现了紧凑的缓存大小。

在一项对比相同设置下不同架构的受控研究中，Hymba-1.5B-Base 展现出了显著优势。

它在所有公开可用的、参数少于20亿的模型中表现优异，并以平均准确率高出1.32%、缓存大小减少11.67倍、吞吐量提升3.49倍的成绩超越了Llama-3.2-3B。

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！

2.模型架构非常巧妙

Hymba-1.5B-Base是一款基础文本到文本的模型，可用于多种自然语言生成任务。论文《Hymba: A Hybrid-head Architecture for Small Language Models》进一步阐述了模型的思想和实验对比。

论文地址：https://arxiv.org/pdf/2411.13676

该模型采用混合架构，其中Mamba和注意力头并行运行。每个提示前都会添加一组可学习的标记（称为Meta标记），以提高模型的有效性。该模型在两层之间以及单层内的各个头之间共享键值（KV）缓存。90%的注意力层采用滑动窗口注意力机制。

Hymba-1.5B-Base的模型嵌入大小为1600，拥有25个注意力头，MLP中间维度为5504，总层数为32层，16个SSM状态，3个全注意力层，其余为滑动窗口注意力层。与标准Transformer不同，Hymba中的每个注意力层都并行结合了标准注意力头和Mamba头的混合组合。此外，它还使用了分组查询注意力（GQA）和旋转位置嵌入（RoPE）。

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！图片

概括来讲，这架构有三个值得注意的特点：

首先，在同一层内融合注意力头和SSM头，对相同输入进行并行且互补的处理；此外，还引入了元标记（meta tokens），这些标记被添加到输入序列的前面，并与所有后续标记进行交互，从而存储重要信息并减轻注意力中“必须关注”的负担；最后，还结合了跨层KV共享和全局-局部注意力，进一步提升内存和计算效率。

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！图片

3.性能超越所有主流小模型，包括Llama3.2

Hymba-1.5B-Base在所有低于20亿的公开模型中表现优异。

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！图片

研究人员从准确率、缓存大小、处理速度三个方面综合评估了现在主流的小语言模型，比如Meta的Llama3.2-1B、Apple的OpenELM-1B、微软的Phi-1.5B、抱抱脸的SmoILM2-1.7B、阿里巴巴的Qwen2.5-1.5B等。

综合评估和消融研究表明，Hymba不仅在众多具有代表性的任务中树立了新的最优（SOTA）基准性能，而且在效率方面相比Transformer和之前的混合模型也更高。例如，在常识推理任务中，Hymba-1.5B的平均准确率比Llama-3.2-3B高出1.32%，而所需的缓存大小却小了11.67倍，速度快了3.49倍。

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！图片

NVIDIA 还提供了一个设置脚本，以简化环境配置，支持CUDA 12.1和12.4版本。

4.不过，需要小心

英伟达承认该模型是利用从互联网上原始抓取的数据进行训练的，这就意味着训练数据包含有毒语言、不安全内容和社会偏见。因此，该模型可能会放大这些偏见，并在接收到有毒提示时返回有毒的回应。

即使提示本身不包含任何明显冒犯性的内容，该模型也可能生成不准确、遗漏关键信息或包含不相关或冗余文本的答案，从而产生社会不可接受或不受欢迎的文本。

除了有毒内容方面需要注意，工程方面也需要注意：

用户应在生成期间将批处理大小设置为1，因为当前设置不完全支持带有滑动窗口注意的填充元标记。然而，任何批次大小都适用于训练和预填充。

5.本月25日公开模型权重，可商用

英伟达非常强调在创建值得信赖的人工智能方面分担责任的重要性，并为其发展制定了道德准则。建议用户负责任地使用该模型，同时注意其局限性。

“在按照我们的服务条款下载或使用时，开发者应与内部模型团队合作，确保该模型满足相关行业和使用场景的要求，并解决产品滥用等不可预见的问题。”

Molchanov 评论道：“我不确定我们是否应该为使用1.5万亿个标记的训练感到自豪。原因是我们要追求速度；在接下来的两周里，就会有人做得更好。”

不过好消息是，Hymba模型已准备好用于商业用途了，而且模型权重也即将推出，预计11月25日发布！

相信大家这两天就可以快速用上这款非常nice的小模型了。

{{userData.name}}已认证

一夜小模型王座易主！英伟达发布超强小模型，新混合架构威力超Transformer，性能、速率、缓存全面超越Llama3.2！

1.双重架构、精确回忆、高效上下文

2.模型架构非常巧妙

3.性能超越所有主流小模型，包括Llama3.2

4.不过，需要小心

5.本月25日公开模型权重，可商用

滴滴ChatBI技术实践：智能数据分析的前沿探索与应用

Nature：谷歌学术正在被AI工具颠覆

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩