微软的BitNet b1.58 2B4T 的技术报告悄然上线。
其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。
——全球首个原生1-bit、规模高达20亿参数的开源大模型。
图片
图注:这张图表明,在同等内存占用下,BitNet b1.58 2B模型取得了更高的性能分数,比当前主流开源模型更高效
别看名字有点拗口,b1.58 2B4T,背后可不简单,这玩意不仅在性能上追平甚至部分超越同级别全精度模型,更是把内存、能耗和推理速度都拉低到令人发指的地步。
而且,模型权重直接上 Hugging Face,推理代码 GPU、CPU 双版本全开源,门槛之低,真是让人有点小震撼。
1.BitNet b1.58 2B4T 到底是什么?
一句话总结:这是世界首个原生1-bit、20亿参数、性能媲美全精度的开源大模型。
大家都知道,大模型开源越来越卷,LLaMA、Qwen、Gemma、MiniCPM 各种百花齐放。但有个痛点始终没解决——太吃资源。
于是,极致量化被推上风口——1-bit(极端比特化,只允许权重取-1、0、+1)。
说起来简单,真要规模化落地,性能往往一落千丈,之前不是只能做小模型,就是性能掉得让人心疼。
BitNet b1.58 2B4T 这次直接原生1-bit训练,参数上到2B,训练数据高达4万亿token,目标就是:
做到极致高效的同时,性能绝不妥协。
图注:在苹果M2 CPU上都能快速运行
2.架构和训练怎么炼成的?
核心创新点有三:
1)BitLinear 层
用自研 BitLinear 替换掉传统 Transformer 的全精度线性层。权重量化到1.58 bit(三值:-1、0、+1),激活也量化到8 bit。这样不仅模型文件暴减,推理也能用比特操作加速。
2)训练方案极致调优
- 预训练用两阶段学习率+权重衰减,先大步快走,再精细收敛。
- 数据集涵盖超大规模网页、代码、数学合成数据,两阶段分别喂不同质量的数据。
- SFT(监督微调)和 DPO(直接偏好优化)全都用上,还专门调大了学习率和轮数,让1-bit模型也能吃透任务。
3.推理实现
为了让1.58-bit和8-bit混合矩阵乘法在GPU/CPU上都能跑起来,团队还专门造了 CUDA kernel 和 C++ 库,模型权重直接高效打包,能在普通笔电、服务器、边缘设备都无压力上线。
图片
3.性能表现:效率+能力双丰收
- 内存占用:0.4GB(非embedding部分),是同级全精度模型的1/4甚至更低。
- 推理延迟:29ms/Token(CPU上),比LLaMA 1B等快出一大截。
- 能耗:仅0.028J/Token,低到离谱。
- 综合能力:平均分 54.19,逼近 Qwen2.5-1.5B(55.23),大幅超越 MiniCPM、Gemma、LLaMA 等同级模型。
- 单项指标:在 ARC-Challenge、GSM8K、CommonsenseQA 等关键任务上还反超大部分对手。
图片
图注:如图所示,BitNet b1.58 2B 在内存、延迟、能耗三项指标上全面领先
更狠的是,和常见的 INT4 量化模型比,BitNet b1.58 2B4T 在内存进一步压缩的情况下,性能反而更稳,几乎没有明显损失。
而且,不只是干掉传统PTQ量化,放到同类1-bit模型里,BitNet b1.58 2B4T 也是一骑绝尘,甚至比部分更大参数、后量化的模型还强。
4.one more thing
BitNet b1.58 2B4T 已经是1-bit模型的天花板,但团队还留了不少悬念:
- 如何实现更大规模扩展(7B、13B)?
- 怎样支持更长上下文,挑战大段落、复杂推理任务?
- 多语言、多模态集成,让1-bit模型也能“看图说话”
- 软硬件协同,期待新一代AI芯片为低比特模型量身定做
- 理论层面,1-bit训练为啥能这么有效?还有哪些魔法值得挖掘?
附:模型和推理工具全开源
技术报告:https://arxiv.org/abs/2504.12285
GPU/CPU推理库:https://aka.ms/bitnet