AI在线 AI在线

微软发布全球首个1-bit大模型:内存缩至0.4 GB,参数只有0和±1,性能追平全精度

作者:文摘菌
2025-04-23 12:11
微软的BitNet b1.58 2B4T 的技术报告悄然上线。 其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。 ——全球首个原生1-bit、规模高达20亿参数的开源大模型。

微软的BitNet b1.58 2B4T 的技术报告悄然上线。

其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。

——全球首个原生1-bit、规模高达20亿参数的开源大模型。

图片图片

图注:这张图表明,在同等内存占用下,BitNet b1.58 2B模型取得了更高的性能分数,比当前主流开源模型更高效

别看名字有点拗口,b1.58 2B4T,背后可不简单,这玩意不仅在性能上追平甚至部分超越同级别全精度模型,更是把内存、能耗和推理速度都拉低到令人发指的地步。

而且,模型权重直接上 Hugging Face,推理代码 GPU、CPU 双版本全开源,门槛之低,真是让人有点小震撼。

1.BitNet b1.58 2B4T 到底是什么?

一句话总结:这是世界首个原生1-bit、20亿参数、性能媲美全精度的开源大模型。

大家都知道,大模型开源越来越卷,LLaMA、Qwen、Gemma、MiniCPM 各种百花齐放。但有个痛点始终没解决——太吃资源。

于是,极致量化被推上风口——1-bit(极端比特化,只允许权重取-1、0、+1)。

说起来简单,真要规模化落地,性能往往一落千丈,之前不是只能做小模型,就是性能掉得让人心疼。

BitNet b1.58 2B4T 这次直接原生1-bit训练,参数上到2B,训练数据高达4万亿token,目标就是:

做到极致高效的同时,性能绝不妥协。

图注:在苹果M2 CPU上都能快速运行图注:在苹果M2 CPU上都能快速运行

2.架构和训练怎么炼成的?

核心创新点有三:

1)BitLinear 层

用自研 BitLinear 替换掉传统 Transformer 的全精度线性层。权重量化到1.58 bit(三值:-1、0、+1),激活也量化到8 bit。这样不仅模型文件暴减,推理也能用比特操作加速。

2)训练方案极致调优

  • 预训练用两阶段学习率+权重衰减,先大步快走,再精细收敛。
  • 数据集涵盖超大规模网页、代码、数学合成数据,两阶段分别喂不同质量的数据。
  • SFT(监督微调)和 DPO(直接偏好优化)全都用上,还专门调大了学习率和轮数,让1-bit模型也能吃透任务。

3.推理实现

为了让1.58-bit和8-bit混合矩阵乘法在GPU/CPU上都能跑起来,团队还专门造了 CUDA kernel 和 C++ 库,模型权重直接高效打包,能在普通笔电、服务器、边缘设备都无压力上线。

图片图片

3.性能表现:效率+能力双丰收

  • 内存占用:0.4GB(非embedding部分),是同级全精度模型的1/4甚至更低。
  • 推理延迟:29ms/Token(CPU上),比LLaMA 1B等快出一大截。
  • 能耗:仅0.028J/Token,低到离谱。
  • 综合能力:平均分 54.19,逼近 Qwen2.5-1.5B(55.23),大幅超越 MiniCPM、Gemma、LLaMA 等同级模型。
  • 单项指标:在 ARC-Challenge、GSM8K、CommonsenseQA 等关键任务上还反超大部分对手。

图片图片

图注:如图所示,BitNet b1.58 2B 在内存、延迟、能耗三项指标上全面领先

更狠的是,和常见的 INT4 量化模型比,BitNet b1.58 2B4T 在内存进一步压缩的情况下,性能反而更稳,几乎没有明显损失。

而且,不只是干掉传统PTQ量化,放到同类1-bit模型里,BitNet b1.58 2B4T 也是一骑绝尘,甚至比部分更大参数、后量化的模型还强。

4.one more thing

BitNet b1.58 2B4T 已经是1-bit模型的天花板,但团队还留了不少悬念:

  • 如何实现更大规模扩展(7B、13B)?
  • 怎样支持更长上下文,挑战大段落、复杂推理任务?
  • 多语言、多模态集成,让1-bit模型也能“看图说话”
  • 软硬件协同,期待新一代AI芯片为低比特模型量身定做
  • 理论层面,1-bit训练为啥能这么有效?还有哪些魔法值得挖掘?

附:模型和推理工具全开源

技术报告:https://arxiv.org/abs/2504.12285

GPU/CPU推理库:https://aka.ms/bitnet

相关标签:

相关资讯

微软开源创新框架:可将DeepSeek,变成AI Agent

微软在官网发布了视觉Agent解析框架OmniParser最新版本V2.0,可将DeepSeek-R1、GPT-4o、Qwen-2.5VL等模型,变成可在计算机使用的AI Agent。 与V1版本相比,V2在检测较小的可交互UI元素时准确率更高、推理速度更快,延迟降低了60%。 在高分辨率Agent基准测试ScreenSpot Pro中,V2 GPT-4o的准确率达到了惊人的39.6%,而GPT-4o原始准确率只有0.8%,整体提升非常大。
2/17/2025 10:36:00 AM
AIGC开放社区

微软开源多模态AI基础模型!无需额外微调轻松拿捏网页、机器人

微软研究院官宣开源多模态AI——Magma模型。 首个能在所处环境中理解多模态输入并将其与实际情况相联系的基础模型。 该模型近期已被计算机视觉顶会CVPR接收,只要给定一个目标描述,Magma就能制定计划、执行行动,无论是在数字界面中还是物理世界里,都能展现出灵活而高效的交互能力。
3/11/2025 9:35:00 AM
量子位

仅需0.4GB,参数只有0和±1!微软开源首个原生1 bit模型,CPU轻松跑

大模型轻量化终于又有好玩的了。 就在最近,微软亚研院开源了第一款参数量达到20亿,并且还是原生1bit精度的LLM——BitNet b1.58 2B4T。 论文地址:,其实都在模型名字里了:1.
4/21/2025 8:30:00 AM
新智元