AI在线 AI在线

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

作者:故渊
2025-04-19 09:52
以 int4 量化为例,Gemma 3 27B 显存需求从 54GB 锐减至 14.1GB,Gemma 3 12B 则从 24GB 降至 6.6GB;Gemma 3 1B 仅需 0.5GB 显存。

谷歌公司昨日(4 月 18 日)发布博文,发布了量化感知训练(QAT)优化版 Gemma 3 模型,在保持高质量的同时,降低内存需求。

谷歌上月推出 Gemma 3 开源模型,能在单台 NVIDIA H100 GPU 上以 BFloat16(BF16)精度高效运行。

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

AI在线援引博文介绍,谷歌为响应用户需求,致力于让 Gemma 3 的强大性能适配普通硬件。量化技术是关键,通过降低模型参数的数值精度(如从 BF16 的 16 位降至 int4 的 4 位),类似图像压缩减少颜色数量,大幅减少数据存储量。

以 int4 量化为例,Gemma 3 27B 显存需求从 54GB 锐减至 14.1GB,Gemma 3 12B 则从 24GB 降至 6.6GB;Gemma 3 1B 仅需 0.5GB 显存。

27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行

这意味着用户可在桌面(NVIDIA RTX 3090)或笔记本(NVIDIA RTX 4060 Laptop GPU)上运行强大 AI 模型,甚至手机也能支持小型模型。

为避免量化导致性能下降,谷歌采用量化感知训练(QAT)技术,在训练过程中模拟低精度运算,确保模型在压缩后仍保持高准确性。Gemma 3 QAT 模型在约 5000 步训练中,将困惑度下降减少了 54%。

Ollama、LM Studio 和 llama.cpp 等主流平台已集成该模型,用户可通过 Hugging Face 和 Kaggle 获取官方 int4 和 Q4_0 模型,轻松在 Apple Silicon 或 CPU 上运行。此外,Gemmaverse 社区提供了更多量化选项,满足不同需求。

相关标签:

相关资讯

谷歌推出 Gemma 3:号称可在单块 GPU 上运行的最强 AI 模型

谷歌今日推出了 Gemma 3 人工智能模型,这是继其一年前发布基于与 Gemini AI 相同技术的两款“开放”Gemma AI 模型后的又一升级之作。根据谷歌官方博客消息,Gemma 3 模型专为开发者设计,旨在支持他们构建能够在多种设备上运行的人工智能应用,无论是手机还是工作站,均可实现无缝运行。该模型支持超过 35 种语言,并具备分析文本、图像及短视频的能力。
3/12/2025 4:16:40 PM
远洋

​谷歌开源新一代多模态模型 Gemma-3:性能卓越、成本降低 10 倍

谷歌 CEO 桑达尔・皮查伊(Sundar Pichai)在一场发布会上宣布,谷歌开源了最新的多模态大模型 Gemma-3,该模型以低成本、高性能为特点,备受关注。 Gemma-3提供了四种不同参数规模的选项,分别为10亿、40亿、120亿和270亿参数。 令人惊讶的是,最大参数的270亿模型只需一张 H100显卡即可高效推理,而同类模型往往需要十倍的算力,这使 Gemma-3成为目前算力要求最低的高性能模型之一。
3/13/2025 8:52:00 AM
AI在线

开源大模型王座易主!谷歌Gemma杀入场,笔记本可跑,可商用

刚刚,谷歌杀入开源大模型。开源领域大模型,迎来了重磅新玩家。谷歌推出了全新的开源模型系列「Gemma」。相比 Gemini,Gemma 更加轻量,同时保持免费可用,模型权重也一并开源了,且允许商用。Gemma 官方页面::Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。想使用的人可以通过 Kaggle、谷歌的 Colab Notebook 或通过 Google Cloud 访问。当然,Gemma 也第一时间上线了 HuggingFace 和 HuggingChat,每个人都能试一下它的生成
2/22/2024 11:02:00 AM
机器之心