Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。
—Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型
是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。
这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。
为什么量化训练让 AI 变“亲民”?
以前的 Gemma 3需要“天花板配置”:NVIDIA H100,BFloat16 精度,普通人家根本用不起。
而这次,Google 把量化训练用到了极致。简单说,就是让模型在训练阶段就习惯低精度(比如 int4、int8),以后部署时直接“瘦身”,几乎不掉智商。
图片
显存节省效果非常明显。以 27B 参数的模型为例,原本需要 54 GB 的显存,在 int4(4 位整型)格式下只需 14.1 GB;12B 版本从 24 GB 降到了 6.6 GB。即便是小尺寸模型也受益明显:4B 版本仅需 2.6 GB,1B 版本甚至只要 0.5 GB 显存。
量化训练的“魔法”到底在哪里?
普通的量化是什么?后处理。模型训完了,直接把参数压缩成低精度,代价就是:掉分,掉智商。
Google 这次玩的是 QAT —— 训练过程直接让模型在低精度环境下“吃苦头”,提前适应精度损失。Google 自己也说了:“因为 QAT,这些模型对量化鲁棒,性能和原版近乎持平。”
当然,benchmark 数据没公开,多少有点卖关子,但社区已经开始实测和玩梗。
不过,仅看显存和推理速度的变化,这次量化训练确实把大模型带进了“民用领域”。