IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

2025-02-08 04:45

随着人工智能技术的不断发展，视觉与文本数据的融合成为了一项复杂的挑战。传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档，这一限制影响了自动内容提取和理解能力，进而影响了数据分析、信息检索和决策等应用。面对这一需求，IBM 近期发布了 Granite-Vision-3.1-2B，一款专为文档理解设计的小型视觉语言模型。

Granite-Vision-3.1-2B 能够从各种视觉格式中提取内容，包括表格、图表和图示。该模型基于精心挑选的数据集进行训练，数据来源包括公共和合成源，能够处理多种文档相关的任务。作为 Granite 大型语言模型的改进版，它将图像和文本两种模态进行了整合，从而提升了模型的解读能力，适用于多种实际应用场景。

该模型由三个关键组件组成:首先是视觉编码器，它使用 SigLIP 高效处理和编码视觉数据;其次是视觉语言连接器，这是一个带有 GELU 激活函数的双层多层感知器（MLP），旨在连接视觉信息与文本信息;最后是大型语言模型，基于 Granite-3.1-2B-Instruct，具备128k 的上下文长度，可以处理复杂和庞大的输入。

在训练过程中，Granite-Vision-3.1-2B 借鉴了 LlaVA，并结合了多层编码器的特性，以及在 AnyRes 中更密集的网格分辨率。这些改进增强了模型理解详细视觉内容的能力，使其能够更准确地执行视觉文档任务，例如分析表格和图表、进行光学字符识别（OCR）以及回答基于文档的查询。

评估结果显示，Granite-Vision-3.1-2B 在多个基准测试中表现优秀，尤其在文档理解方面。在 ChartQA 基准测试中，该模型的得分达到0.86，超越了其他参数在1B-4B 范围内的模型。在 TextVQA 基准测试中，得分为0.76，展现出在解析和回答图像中嵌入的文本信息方面的强大能力。这些成果凸显了该模型在企业应用中对精确视觉和文本数据处理的潜力。

IBM 的 Granite-Vision-3.1-2B 代表了视觉语言模型的一次重要进步，提供了一个均衡的视觉文档理解方案。其架构和训练方法使其能够高效地解析和分析复杂的视觉和文本数据。由于其对变换器和 vLLM 的原生支持，该模型可以适应多种用例，并能在诸如 Colab T4等云环境中部署，为研究人员和专业人士提供了一种增强 AI 驱动文档处理能力的实用工具。

模型:https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview

划重点:
🌟 Granite-Vision-3.1-2B 是 IBM 推出的专为文档理解设计的小型视觉语言模型，能够处理多种视觉格式的内容提取。
📊 模型由视觉编码器、视觉语言连接器和大型语言模型三部分组成，提升了对复杂输入的理解能力。
🏆 在多个基准测试中表现优异，特别是在文档理解领域，展现出强大的企业应用潜力。

IBM 宣布开源其“最先进”Granite 代码模型：116 种编程语言训练，号称优于其他竞品

感谢IBM 在年度 THINK 大会上宣布，IBM 现已开源其“最先进”和高性能的 Granite（花岗岩）代码模型。IT之家附开源链接如下：GitHub：点此进入Hugging Face：点此进入Granite 代码模型的参数范围从 3B 到 34B，并且有基础模型和指令跟随模型两种变体，适用于复杂应用现代化、代码生成、修复错误、解释和记录代码、维护数据库等任务。这些代码模型在 116 种编程语言上进行训练，在各种代码相关任务中始终达到开源代码大模型的“最先进”性能。▲ Granite-8B-Code 与其他类

5/21/2024 5:46:53 PM

沛霖（实习）

IBM Granite 3.0模型：为大规模企业AI应用指明方向

IBM在企业AI领域做出了一系列颇为独特的探索。蓝色巨人目前正在推动全栈技术布局，以自2020年来兴起的AI和混合云作为企业战略领域的两大基础性支柱，同时借鉴了自身在其产品组合中积累下的优势。更重要的是，这套方案扭转了主要以AI概念验证为目标的总体趋势，转而专注于解决高度具体的业务用例，且执行效率更高。

11/6/2024 3:34:51 PM

Chiplet设计、性能240%提升，英特尔下一代数据中心CPU设计来了

最大支持 144 核心。

8/29/2023 2:37:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

IBM发布视觉语言模型Granite-Vision-3.1-2B，轻松解析复杂文档

相关资讯

IBM 宣布开源其“最先进”Granite 代码模型：116 种编程语言训练，号称优于其他竞品

IBM Granite 3.0模型：为大规模企业AI应用指明方向

Chiplet设计、性能240%提升，英特尔下一代数据中心CPU设计来了