AI在线 AI在线

PDF

AI 与非结构化数据:简单 RAG 的局限及生产级解决方案全解析

非结构化数据涵盖了电子邮件、PDF 文件、会议记录等多种形式,它们充斥在各个角落,却由于缺乏固定的格式,给传统的数据处理工具带来了巨大的挑战。 而人工智能(AI)的出现,尤其是大型语言模型(LLMs),为解决非结构化数据的难题带来了新的希望。 但在实际应用中,简单的检索增强生成(RAG)方法却存在诸多不足,无法满足复杂的生产级场景需求。
4/18/2025 2:55:00 AM
大模型之路

用AI把PDF一键变成能玩的可视化网页,这不比PPT酷多了?

前几天,看到好基友歸藏在 X 上发了一个帖子:还挺爆,一天半的时间过去,已经有 17.3 万的阅读了。 这个东西,简单点说,就是用一个 Prompt,把一些非常难以阅读的文字报告,一键转成更舒服更易读的可视化网页。 甚至,还是能交互的那种。
3/13/2025 6:53:33 AM
数字生命卡兹克

开源OCR工具olmOCR:高效实现 PDF 转文本,支持表格与手写识别

olmOCR 是一款开源的光学字符识别(OCR)工具,旨在高效地将 PDF 及其他文档转换为纯文本,同时保留自然的阅读顺序。 这款工具不仅支持普通文本的提取,还能处理表格、数学公式和手写内容,极大地方便了用户对文档的处理需求。 这款工具的核心优势在于其高准确率。
3/3/2025 9:25:00 AM
AI在线

黄仁勋:英伟达已将 AI 应用于芯片设计、软件编写和供应链管理等领域

感谢据《华尔街日报》今日报道,英伟达 CEO 黄仁勋对数千名企业技术领导者表示,企业必须转型为依靠人工智能驱动的组织,以迎接他所称的“新工业革命”。黄仁勋说,英伟达已经将这种理念付诸实践,积极地将 AI 应用于芯片设计、软件编写和供应链管理等领域。黄仁勋表示,从长远来看,英伟达正在打造他所述的“AI 大脑”。
10/23/2024 9:34:54 AM
清源

惠普报告称生成式 AI 正被用于创建网络攻击恶意软件,可被藏匿在 svg 图像中

当地时间 24 日,惠普发布的《威胁洞察(Threat Insights)》报告指出,不良行为者、黑客和网络犯罪分子正在利用生成式 AI 开发复杂的恶意软件,目标是法语用户。“恶意软件的结构、解释每行代码的注释以及母语函数名和变量都表明,威胁行为者使用生成式 AI 创建了该恶意软件。”受害者通常通过网络钓鱼电子邮件或恶意广告成为攻击目标,从而进入恶意网站。这些网站看似专业可信,通常提供假冒的工具或服务,例如 PDF 转换器。但是,这个 ChromeLoader 活动在用户被引向假冒 PDF 工具后,最终安装了恶意代
9/25/2024 9:18:56 PM
清源

移动版谷歌 Gemini 将迎诸多新特性:分析 PDF 文件内容等

感谢消息源 AssembleDebug 近日挖掘安卓版 Gemini 应用程序,发现隐藏了诸多新功能 / 新特性,包括上传 PDF 等文件,引入 Live Prompts、Select text 功能等。上传并分析 PDF 格式文件安卓版 Gemini 现阶段仅支持上传图片,而在最新版中相关代码已经出现了上传 PDF 等文件描述,可以分析文档中的内容,只是该功能目前尚未生效。Select text安卓版 Gemini 此前提供的回答只能全文复制,用户需要复制粘贴到其它地方再进行优化。而在最新选项中新增了“Selec
4/24/2024 2:20:15 PM
故渊

微软解锁 Copilot 特性:字符上限最高调至 1.6 万、支持梳理 PDF 等文件内容

微软公司近日通过服务器更新,上调了 Windows 10、Windows 11 系统、网页版以及 Edge 浏览器中 Copilot 的字符上限,最高可以达到 1.6 万个;此外微软还支持附加 PDF 等文件以及集成笔记本。微软最初推出网页版和 Windows 版 Copilot 时,字符上限为 2000 个字符,后来增加到 4000 个字符。而在本次更新之后,Copilot 普通用户在“更有创意”模式下,字符上限调整为 8000 个;而如果订购了 Copilot Pro,字符数可以达到 1.6 万个。图源:Win
4/24/2024 9:17:04 AM
故渊

银行流水、财报、年报、电费分割单等各类文档一键提取,达观表格提取工具再升级!

很多工作流程中涉及文档的表格的提取,比如财报信息的识别提取、银行流水的表格审查等,并且这些文档常常在PDF、扫描件、图片等无法直接复制出表格样式的文档中。人工操作费时费力,还需要留心出错的问题。 达观数据智能表格提取工具,结合NLP、OCR、CV 等自研人工智能技术,以智能化方式解决文档表格提取中的核心痛点问题。可以支持PDF、Word、扫描件、图片等多种文档格式类型,快速提取文档中的表格信息,更直观、更方便、更准确的完成文档的表格提取,让表格识别提取工作更轻松。 先感受下强大便捷的产品使用体验:通过上传文档-查看
1/11/2022 9:43:00 AM
达观数据
  • 1