谷歌发布全新视觉语言模型 PaliGemma 2 Mix 集成多种功能助力开发者

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。 这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。 PaliGemma2Mix 的功能非常强大,它集成了图像描述、光学字符识别(OCR)、图像问答、目标检测和图像分割等多种视觉 - 语言任务,适用于多种应用场景。

近日,谷歌宣布推出一款全新的视觉 - 语言模型(Vision-Language Model, VLM),名为 PaliGemma2Mix。这款模型融合了图像处理与自然语言处理的能力,能够同时理解视觉信息和文本输入,并根据需求生成相应的输出,标志着人工智能技术在多任务处理方面的进一步突破。

PaliGemma2Mix 的功能非常强大,它集成了图像描述、光学字符识别(OCR)、图像问答、目标检测和图像分割等多种视觉 - 语言任务,适用于多种应用场景。开发者可以通过预训练检查点(checkpoints)直接使用这款模型,或根据自己的需求进行进一步微调。

image.png

该模型是基于先前的 PaliGemma2进行优化而来,专门针对混合任务进行了调整,旨在让开发者轻松探索其强大的能力。PaliGemma2Mix 提供三种参数规模供开发者选择,包括3B(30亿参数)、10B(100亿参数)和28B(280亿参数),并支持224px 和448px 两种分辨率,适应不同计算资源和任务需求。

PaliGemma2Mix 的主要功能亮点包括:

1. 图像描述:模型能够生成短篇和长篇的图像说明,例如识别一张牛站在海滩上的图片并提供详细描述。

2. 光学字符识别(OCR):该模型可以从图像中提取文字,识别标志、标签及文档内容,为信息提取提供便利。

3. 图像问答与目标检测:用户可通过上传图片并提出问题,模型会分析图片并给出答案,此外,它还能准确识别图像中的特定对象,如动物、车辆等。

值得一提的是,开发者可以在 Kaggle 和 Hugging Face 上下载这款模型的混合权重,便于进行进一步的实验与开发。如果你对这款模型感兴趣,可以通过 Hugging Face 的演示平台进行探索,了解其强大的能力与应用潜力。

随着 PaliGemma2Mix 的推出,谷歌在视觉 - 语言模型领域的研究又向前迈进了一步,期待这项技术能够在实际应用中展现更大的价值。

技术报告:https://arxiv.org/abs/2412.03555

相关资讯

IDC发布中国计算机视觉解决方案厂商评估,联汇科技作为主要厂商上榜

近日,国际数据公司IDC公布了《IDC MarketScape:中国计算机视觉解决方案厂商评估,2023》报告显示,2022 年,中国AI赋能的计算机视觉解决方案市场规模达123.0亿元人民币。联汇科技凭借出色的能力措施(Capabilities),包括技术产品、服务项目与客户需求满足等能力,以及关键战略(Strategies)中的优势,成为中国计算机视觉行业领先的主要厂商(Major Players)。逆势新生 多模态大模型带来更多可能报告指出,2022 年计算机视觉解决方案市场主要由疫情防控相关的公共场所的安全

复盘旷视十三年:高光、谷底与重生

01 年轻人的时代印奇对人工智能的执著,比旷视成立要早几年。 2006 年,这个 88 年出生的安徽小伙在清华自主招生考试与全国高考中均取得十分优秀的成绩。 报考专业时,他特地询问招生办的老师:“我想研究人工智能,应该选什么系?

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。