AI在线 AI在线

谷歌“Wi-Fi密码”式的最瘦大模型

作者:文摘菌
2025-04-24 02:13
Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。 —Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。 这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。

Gemma 3 的“低门槛 AI”计划露面了,谷歌这次直接把 Gemma 3 做成了“跑得动的”AI。

—Gemma-3-27b-it-qat-q4_0-gguf 听上去像个 Wi-Fi 密码,其实却是谷歌迄今为止最精简的大模型

是的,不再只属于高端服务器和土豪显卡,普通玩家的游戏卡,甚至手机,都能一试身手。

这波操作的核心是三个字:量化训练(Quantization-Aware Training, QAT)。

为什么量化训练让 AI 变“亲民”?

以前的 Gemma 3需要“天花板配置”:NVIDIA H100,BFloat16 精度,普通人家根本用不起。

而这次,Google 把量化训练用到了极致。简单说,就是让模型在训练阶段就习惯低精度(比如 int4、int8),以后部署时直接“瘦身”,几乎不掉智商。

图片图片

显存节省效果非常明显。以 27B 参数的模型为例,原本需要 54 GB 的显存,在 int4(4 位整型)格式下只需 14.1 GB;12B 版本从 24 GB 降到了 6.6 GB。即便是小尺寸模型也受益明显:4B 版本仅需 2.6 GB,1B 版本甚至只要 0.5 GB 显存。

量化训练的“魔法”到底在哪里?

普通的量化是什么?后处理。模型训完了,直接把参数压缩成低精度,代价就是:掉分,掉智商。

Google 这次玩的是 QAT —— 训练过程直接让模型在低精度环境下“吃苦头”,提前适应精度损失。Google 自己也说了:“因为 QAT,这些模型对量化鲁棒,性能和原版近乎持平。”

当然,benchmark 数据没公开,多少有点卖关子,但社区已经开始实测和玩梗。

不过,仅看显存和推理速度的变化,这次量化训练确实把大模型带进了“民用领域”。

相关标签:

相关资讯

哥德尔90年前的「不完备性定理」,奠定了计算机与AI的理论基础

大神早已远去,而他的光芒仍在人间。
6/18/2021 2:19:00 PM
机器之心

美国最高法院最终裁定:维持TikTok禁令,特朗普发帖回应:意料之中应该尊重,但是否执行有待时间考虑,周受资或出席特朗普就职典礼

美最高法院最后裁定结果出来了:维持 TikTok 禁令。 美东时间,本周五,最高法院一致决定站在拜登政府一边,维持拜登总统今年 4 月 签署的《保护美国人免受外国对手控制应用法案》 。 最高法院的意见称:“毫无疑问,对于超过 1.7 亿美国人来说,TikTok 提供了一个独特而广阔的表达渠道、参与方式和社区来源。
1/18/2025 4:35:41 PM
51CTO技术栈

「完美的搜索引擎」是否存在?这家公司向谷歌发起挑战

你需要一群拒绝接受现状的人,并为之努力多年,直到一个抽象的愿景变为现实,即使其他人都不理解。 你每天都在用的搜索引擎,可能并不完美。 大型语言模型(LLMs)能够解决研究生水平的数学问题,但今天的搜索引擎却无法准确理解一个简单的三词短语。
1/18/2025 6:35:00 PM
机器之心