谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

2025-02-21 10:00

去年 12 月，谷歌推出了 PaliGemma 2 ，这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小（3B、10B 和 28B 参数）的预训练检查点，可轻松针对各种视觉语言任务和领域进行微调，例如图像分割、短视频字幕、科学问答和文本相关任务，并实现高性能。 2月19日，谷歌宣布推出 PaliGemma 2 mix 检查点。

去年 12 月，谷歌推出了 PaliGemma 2 ，这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小（3B、10B 和 28B 参数）的预训练检查点，可轻松针对各种视觉语言任务和领域进行微调，例如图像分割、短视频字幕、科学问答和文本相关任务，并实现高性能。

2月19日，谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型，允许直接探索模型功能并将其开箱即用，用于常见用例。

PaliGemma 2 mix 有什么新功能？

一个模型可完成多项任务：PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符识别 (OCR)、图像问答、对象检测和分割等任务。
适合开发人员的尺寸：借助不同的模型尺寸（3B、10B 和 28B 参数）和分辨率（224px 和 448px），使用最适合您需求的模型。
与您喜欢的框架一起使用：利用您喜欢的工具和框架，包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

如果已经在使用原始的 PaliGemma 混合检查点，则可以直接升级到 PaliGemma 2，而无需进行任何更改。该模型根据提示方式执行不同的任务。

效果展示

检测

任务：检测（PaliGemma-2-3b-mix-224）
输入：“detect android\n”

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

多物体检测

任务：多目标检测（PaliGemma-2-3b-mix-224）
输入：“检测椅子；桌子\n”

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

餐厅内物品的多物体检测

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果：

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

光学字符识别 (OCR)

任务：多目标检测（PaliGemma-2-3b-mix-224）
输入-“ocr\n”

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果：

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

分割

任务：分割 (PaliGemma-2-3b-mix-224)
输入-“segment cat\n”

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

问答

任务：问答 (PaliGemma2-mix-3b-448)
输入：“答案 en 牛站在哪里？\n”

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果

beach

字幕

输入：“caption en\n”

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果

a cow standing on a beach next to a sign that says warning dangerous rip current.

光学字符识别 (OCR)

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

结果：

WARNING
DANGEROUS
RIP CURRENT

立即开始

试用：https://huggingface.co/spaces/google/paligemma2-10b-mix
模型：https://www.kaggle.com/models/google/paligemma-2/
运行：https://ai.google.dev/gemma/docs/paligemma/inference-with-keras
部署：https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma

谷歌AlphaGeometry2攻克IMO几何难题，已超越金牌得主平均水准

OpenAI 与 DeepSeek 卷得不可开交的时候，谷歌 DeepMind 的数学推理模型又偷偷惊艳了所有人。在最新的一篇论文中，谷歌 DeepMind 介绍了全新进化的 AlphaGeometry 2，该系统在解决奥林匹克几何问题方面已经超过了金牌得主的平均水准。论文标题：Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2论文链接：（IMO）是一项面向全球高中生的著名数学竞赛。

2/10/2025 9:10:00 AM

机器之心

本想去谷歌捞一笔就跑，却成了改变AI历史的人｜Transformer作者对话Jeff Dean

谷歌两位大佬回应一切：从PageRank到AGI的25年。现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer，与知名播客主持人Dwarkesh Patel展开对谈。视频刚发几个小时，就有20万网友在线围观。

2/14/2025 8:40:00 AM

量子位

DeepSeek数学大翻车？普林斯顿谷歌锤爆LLM：做题不会推理，全靠死记硬背

破案了！就在刚刚，来自普林斯顿和谷歌的研究者发现——大模型做数学题，不是靠推理，而是靠从训练集里记下的解题技巧！论文地址：「未解之谜」一直困扰着不少业内人士：在数学上，LLM到底是学会了举一反三，还是只是学会了背题？

2/14/2025 10:23:00 AM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

顶部

谷歌推出PaliGemma 2 mix：用于多任务的视觉语言模型，开箱即用

PaliGemma 2 mix 有什么新功能？

效果展示

检测

结果

多物体检测

结果

结果：

光学字符识别 (OCR)

结果：

分割

结果

问答

结果

字幕

结果

光学字符识别 (OCR)

结果：

立即开始

相关资讯

谷歌AlphaGeometry2攻克IMO几何难题，已超越金牌得主平均水准

本想去谷歌捞一笔就跑，却成了改变AI历史的人｜Transformer作者对话Jeff Dean

DeepSeek数学大翻车？普林斯顿谷歌锤爆LLM：做题不会推理，全靠死记硬背