微软发布全球首个1-bit大模型：内存缩至0.4 GB，参数只有0和±1，性能追平全精度

作者：文摘菌

2025-04-23 12:11

微软的BitNet b1.58 2B4T 的技术报告悄然上线。其实在开源社区里，关于极致低比特量化的大模型早就有各种传闻，这次微软研究院终于亮出底牌。 ——全球首个原生1-bit、规模高达20亿参数的开源大模型。

微软的BitNet b1.58 2B4T 的技术报告悄然上线。

其实在开源社区里，关于极致低比特量化的大模型早就有各种传闻，这次微软研究院终于亮出底牌。

——全球首个原生1-bit、规模高达20亿参数的开源大模型。

图片

图注：这张图表明，在同等内存占用下，BitNet b1.58 2B模型取得了更高的性能分数，比当前主流开源模型更高效

别看名字有点拗口，b1.58 2B4T，背后可不简单，这玩意不仅在性能上追平甚至部分超越同级别全精度模型，更是把内存、能耗和推理速度都拉低到令人发指的地步。

而且，模型权重直接上 Hugging Face，推理代码 GPU、CPU 双版本全开源，门槛之低，真是让人有点小震撼。

1.BitNet b1.58 2B4T 到底是什么？

一句话总结：这是世界首个原生1-bit、20亿参数、性能媲美全精度的开源大模型。

大家都知道，大模型开源越来越卷，LLaMA、Qwen、Gemma、MiniCPM 各种百花齐放。但有个痛点始终没解决——太吃资源。

于是，极致量化被推上风口——1-bit（极端比特化，只允许权重取-1、0、+1）。

说起来简单，真要规模化落地，性能往往一落千丈，之前不是只能做小模型，就是性能掉得让人心疼。

BitNet b1.58 2B4T 这次直接原生1-bit训练，参数上到2B，训练数据高达4万亿token，目标就是：

做到极致高效的同时，性能绝不妥协。

图注：在苹果M2 CPU上都能快速运行

2.架构和训练怎么炼成的？

核心创新点有三：

1)BitLinear 层

用自研 BitLinear 替换掉传统 Transformer 的全精度线性层。权重量化到1.58 bit（三值：-1、0、+1），激活也量化到8 bit。这样不仅模型文件暴减，推理也能用比特操作加速。

2)训练方案极致调优

预训练用两阶段学习率+权重衰减，先大步快走，再精细收敛。
数据集涵盖超大规模网页、代码、数学合成数据，两阶段分别喂不同质量的数据。
SFT（监督微调）和 DPO（直接偏好优化）全都用上，还专门调大了学习率和轮数，让1-bit模型也能吃透任务。

3.推理实现

为了让1.58-bit和8-bit混合矩阵乘法在GPU/CPU上都能跑起来，团队还专门造了 CUDA kernel 和 C++ 库，模型权重直接高效打包，能在普通笔电、服务器、边缘设备都无压力上线。

图片

3.性能表现：效率+能力双丰收

内存占用：0.4GB（非embedding部分），是同级全精度模型的1/4甚至更低。
推理延迟：29ms/Token（CPU上），比LLaMA 1B等快出一大截。
能耗：仅0.028J/Token，低到离谱。
综合能力：平均分 54.19，逼近 Qwen2.5-1.5B（55.23），大幅超越 MiniCPM、Gemma、LLaMA 等同级模型。
单项指标：在 ARC-Challenge、GSM8K、CommonsenseQA 等关键任务上还反超大部分对手。

图片

图注：如图所示，BitNet b1.58 2B 在内存、延迟、能耗三项指标上全面领先

更狠的是，和常见的 INT4 量化模型比，BitNet b1.58 2B4T 在内存进一步压缩的情况下，性能反而更稳，几乎没有明显损失。

而且，不只是干掉传统PTQ量化，放到同类1-bit模型里，BitNet b1.58 2B4T 也是一骑绝尘，甚至比部分更大参数、后量化的模型还强。

4.one more thing

BitNet b1.58 2B4T 已经是1-bit模型的天花板，但团队还留了不少悬念：

如何实现更大规模扩展（7B、13B）？
怎样支持更长上下文，挑战大段落、复杂推理任务？
多语言、多模态集成，让1-bit模型也能“看图说话”
软硬件协同，期待新一代AI芯片为低比特模型量身定做
理论层面，1-bit训练为啥能这么有效？还有哪些魔法值得挖掘？

附：模型和推理工具全开源

技术报告：https://arxiv.org/abs/2504.12285

GPU/CPU推理库：https://aka.ms/bitnet

微软开源创新框架：可将DeepSeek，变成AI Agent

微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0，可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型，变成可在计算机使用的AI Agent。与V1版本相比，V2在检测较小的可交互UI元素时准确率更高、推理速度更快，延迟降低了60%。在高分辨率Agent基准测试ScreenSpot Pro中，V2 GPT-4o的准确率达到了惊人的39.6%，而GPT-4o原始准确率只有0.8%，整体提升非常大。

2/17/2025 10:36:00 AM

AIGC开放社区