AI在线 AI在线

力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

作者:故渊
2025-04-22 11:02
最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。

最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。

AI在线注:谷歌于 3 月 25 日向付费用户和开发者发布 Gemini 2.5 Pro 实验模型,仅隔 4 天时间,谷歌便通过免费 Web 应用向全球用户开放。

Gemini 2.5 Pro 不仅能提取 PDF 文档中的文本内容,还能理解其视觉布局,包括图表、表格和整体排版。

谷歌在开发者文档中表示,该模型具备“原生视觉”(Native Vision)能力,支持处理最多 3000 个 PDF 文件(每个文件上限为 1000 页或 50MB),同时拥有 100 万 token 的超大上下文窗口,未来计划扩展至 200 万 token。

AI 初创公司 Matrisk 的联合创始人 Sergey Filimonov 特别赞扬了 Gemini 2.5 Pro 在 PDF 视觉引用上的表现。

Filimonov 指出,传统的文本分割方法会切断用户与原文的视觉联系,导致无法直观验证信息的来源。甚至在 ChatGPT 中,点击引用也只能下载 PDF,迫使用户自行判断模型是否“幻觉”,这严重损害了用户信任。

过去,引用文档内容往往只能高亮大段无关文本,精准度极低。Gemini 2.5 彻底改变这一现状,它不仅能将提取的文本片段映射回原始 PDF 的确切位置,还能以前所未有的精度锁定特定句子、表格单元甚至图像。

这种技术突破为用户提供了直观的视觉反馈,例如在询问房屋费率变化时,系统能直接高亮文档中相关数据(如 15.4% 的费率变化),并标注来源依据。

这种清晰度和交互性是现有工具无法企及的。Gemini 2.5 不仅优化了现有流程,更开启了全新的文档交互模式。

力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

相比之下,Gemini 2.5 以 0.804 的 IoU(交并比)精度大幅领先其他模型,如 OpenAI 的 GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210),展现出惊人的空间理解能力。

提供商模型IOU简评
Gemini2.5 Pro0.804非常优秀
Gemini2.5 Flash0.614有时表现不错
Gemini2.0 Flash0.395
OpenAIgpt-4o0.223
OpenAIgpt-4.10.268
OpenAIgpt-4.1-mini0.253
Claude3.7 Sonnet0.210

Gemini 2.5 的潜力远不止于文本定位。它还能从 PDF 中提取结构化数据,同时明确标注每个数据的来源位置,解决下游决策中因数据来源不明而产生的信任障碍。

力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用

相关标签:

相关资讯

谷歌向 Pixel 9 /三星 Galaxy S25 推出 Gemini Live AI“实时拍摄”及识图导购助手功能

谷歌Gemini Live AI推出实时拍摄和识图导购功能,支持Pixel 9和Galaxy S25,可识别物体并比价购物。#谷歌AI##智能手机#
4/8/2025 7:36:23 AM
漾仔

ComfyUI 难度骤降一倍!揭秘谷歌Gemini 2.0 Flash的史诗级更新

最近,谷歌一口气对 AI 模型能力做了一次大升级,其中最吸引我的是 Gemini 2.0 Flash (Image Generation) ,这个模型对设计师来说,实用性很强。 更多新模型的介绍:. 被低估的谷歌?
3/26/2025 1:55:56 AM
彩云Sky

谷歌发布 3 款 Gemini 实验 AI 模型:1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

谷歌 AI Studio 产品总监洛根・基尔帕特里克(Logan Kilpatrick)今天(8 月 28 日)在 X 平台发布推文,宣布推出 3 款 Gemini 实验性模型。AI在线附上谷歌本次推出的 3 款实验性 Gemini AI 模型如下:Gemini 1.5 Flash-8BGemini 1.5 Flash-8B 是 Gemini 1.5 Flash 的更小尺寸模型,拥有 80 亿参数,专为多模态任务而设计,包括大容量任务和长文本摘要任务。Gemini 1.5 Pro Exp-0827主要增强编程、复杂
8/28/2024 11:02:41 AM
故渊