AI在线 AI在线

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

作者:Omar Sanseviero
2025-02-21 10:00
去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。 该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。 2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。

去年 12 月,谷歌推出了 PaliGemma 2 ,这是Gemma系列中的升级版视觉语言模型。该版本包含不同大小(3B、10B 和 28B 参数)的预训练检查点,可轻松针对各种视觉语言任务和领域进行微调,例如图像分割、短视频字幕、科学问答和文本相关任务,并实现高性能。

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

2月19日,谷歌宣布推出 PaliGemma 2 mix 检查点。PaliGemma 2 mix 是针对多种任务进行调整的模型,允许直接探索模型功能并将其开箱即用,用于常见用例。

PaliGemma 2 mix 有什么新功能?

  • 一个模型可完成多项任务:PaliGemma 2 mix 可以解决短字幕和长字幕、光学字符识别 (OCR)、图像问答、对象检测和分割等任务。
  • 适合开发人员的尺寸:借助不同的模型尺寸(3B、10B 和 28B 参数)和分辨率(224px 和 448px),使用最适合您需求的模型。
  • 与您喜欢的框架一起使用:利用您喜欢的工具和框架,包括Hugging Face Transformers、Keras、PyTorch、JAX 和Gemma.cpp。

如果已经在使用原始的 PaliGemma 混合检查点,则可以直接升级到 PaliGemma 2,而无需进行任何更改。该模型根据提示方式执行不同的任务。

效果展示

检测

  • 任务:检测(PaliGemma-2-3b-mix-224)
  • 输入:“detect android\n”

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

多物体检测

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)
  • 输入:“检测椅子;桌子\n”

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

  • 餐厅内物品的多物体检测

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果:

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

光学字符识别 (OCR)

  • 任务:多目标检测(PaliGemma-2-3b-mix-224)
  • 输入-“ocr\n”

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果:

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

分割

  • 任务:分割 (PaliGemma-2-3b-mix-224)
  • 输入-“segment cat\n”

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

问答

  • 任务:问答 (PaliGemma2-mix-3b-448)
  • 输入:“答案 en 牛站在哪里?\n”

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果

beach

字幕

  • 输入:“caption en\n”

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果

a cow standing on a beach next to a sign that says warning dangerous rip current.

光学字符识别 (OCR)

谷歌推出PaliGemma 2 mix:用于多任务的视觉语言模型,开箱即用

结果:

  • WARNING
  • DANGEROUS
  • RIP CURRENT

立即开始

  • 试用:https://huggingface.co/spaces/google/paligemma2-10b-mix
  • 模型:https://www.kaggle.com/models/google/paligemma-2/
  • 运行:https://ai.google.dev/gemma/docs/paligemma/inference-with-keras
  • 部署:https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/paligemma
相关标签:

相关资讯

谷歌AlphaGeometry2攻克IMO几何难题,已超越金牌得主平均水准

OpenAI 与 DeepSeek 卷得不可开交的时候,谷歌 DeepMind 的数学推理模型又偷偷惊艳了所有人。 在最新的一篇论文中,谷歌 DeepMind 介绍了全新进化的 AlphaGeometry 2,该系统在解决奥林匹克几何问题方面已经超过了金牌得主的平均水准。 论文标题:Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2论文链接:(IMO)是一项面向全球高中生的著名数学竞赛。
2/10/2025 9:10:00 AM
机器之心

本想去谷歌捞一笔就跑,却成了改变AI历史的人|Transformer作者对话Jeff Dean

谷歌两位大佬回应一切:从PageRank到AGI的25年。 现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer,与知名播客主持人Dwarkesh Patel展开对谈。 视频刚发几个小时,就有20万 网友在线围观。
2/14/2025 8:40:00 AM
量子位

DeepSeek数学大翻车?普林斯顿谷歌锤爆LLM:做题不会推理,全靠死记硬背

破案了! 就在刚刚,来自普林斯顿和谷歌的研究者发现——大模型做数学题,不是靠推理,而是靠从训练集里记下的解题技巧! 论文地址:「未解之谜」一直困扰着不少业内人士:在数学上,LLM到底是学会了举一反三,还是只是学会了背题?
2/14/2025 10:23:00 AM
新智元