AI在线 AI在线

谷歌发布 Gemma 3 QAT 模型:一张3090显卡也能轻松驾驭

作者:AI在线
2025-04-21 01:00
谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。 仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。 具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。

谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高质量。

具体来说,经过 QAT 优化的 Gemma327B 模型,其显存需求从54GB 大幅降低到14.1GB,意味着用户现在可以在 NVIDIA RTX3090等消费级 GPU 上本地运行这一大型模型。通过简单的测试,配备 RTX3070的机器也能运行 Gemma3的12B 版本,尽管其 token 输出速度稍显不足,但整体性能仍在可接受范围之内。

image.png

QAT 的神奇之处在于,它在训练过程中直接融入量化操作,与传统的训练完成后再进行量化的方法不同。这种方法能够有效模拟低精度运算,从而在后续量化为更小版本时,尽量减少性能损失。谷歌进行了约5000步的 QAT 训练,成功将困惑度下降了54%,这让模型在小型设备上也能保持较高的运行效果。

image.png

现在,Gemma3的不同版本都可以在各类 GPU 上运行。以 Gemma327B 为例,只需单张 NVIDIA RTX3090(24GB VRAM)便能轻松实现本地运行,而 Gemma312B 则可以在 NVIDIA RTX4060等更轻便的设备上高效执行。这种模型的降维设计使得更多用户能够体验到强大的 AI 功能,甚至在资源有限的系统上(如手机)也能获得支持。

谷歌还与多个开发者工具合作,提供用户无缝体验的方式,如 Ollama、LM Studio 和 MLX 等工具都已支持 Gemma3QAT 模型的使用。值得一提的是,许多用户对此表示极大的兴奋,纷纷表示希望谷歌进一步探索更高效的量化技术。

相关资讯

谷歌推出Gemma 3:单GPU上运行的最强AI模型

谷歌近日推出了最新版本的 Gemma AI 模型 ——Gemma3,声称这是 “全球最强的单加速器模型”。 与之前发布的 Gemma AI 系列相比,Gemma3在性能上有了显著提升,尤其适合只配备一张 Nvidia H100显卡的开发者。 该模型的设计初衷是为了帮助开发者创建能够在各种设备上运行的 AI 应用,从智能手机到工作站均可兼容。
3/12/2025 4:12:00 PM
AI在线

Meta首席AI科学家预测五年内将出现新的AI架构范式,开启 “机器人十年”

在日前的达沃斯 “技术辩论” 会上,Meta 的首席 AI 科学家 Yann LeCun 对未来五年的人工智能发展做出了激动人心的预测。 他认为,现有的人工智能系统将在未来3到5年内面临巨大的变革,将出现一种 “新的 AI 架构范式”,超越当今普遍使用的生成式 AI 和大型语言模型(LLM)的能力。 LeCun 指出,当前的 LLM 虽然在语言处理上表现良好,但在真正智能的行为上却存在显著局限性。
1/24/2025 9:43:00 AM
AI在线

Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理

Sakana AI 是一家专注于自然启发算法的人工智能研究实验室,近日推出了一种名为 Transformer² (Transformer-squared) 的创新自适应语言模型。 该模型无需昂贵的微调,即可在推理过程中动态学习并适应新任务,这标志着大型语言模型 (LLM) 技术发展的重要一步。 Transformer² 的核心创新在于其独特的两步动态权重调整机制。
1/24/2025 10:48:00 AM
AI在线