文档

号称全球性能最高!Mistral 发布全新 OCR API 全方位解析文档

在AI模型竞争的浪潮中,法国初创公司Mistral另辟蹊径,亮出了一款名为Mistral OCR的光学字符识别(OCR)API,旨在赋予企业更高级的文档理解能力。 这款新工具承诺将杂乱无章的PDF和图像文件中的内容——无论是潦草的手写笔记,清晰的打印文本,还是复杂的图片、表格和公式——都精准地提取出来,并整理成结构化的数据呈现。 对于那些被海量非结构化数据困扰的企业来说,这无疑是一场及时雨。

阿里通义实验室开源视觉文档RAG系统ViDoRAG,准确率达79.4%

近日,阿里巴巴通义实验室宣布开源其最新研发成果——ViDoRAG,这是一款专为视觉文档理解设计的检索增强生成(RAG)系统。 ViDoRAG在GPT-4o模型上的测试显示,其准确率达到了令人瞩目的79.4%,相较传统RAG系统提升了10%以上。 这一突破标志着视觉文档处理领域迈出了重要一步,为人工智能在复杂文档理解上的应用提供了新的可能性。

开源OCR工具olmOCR:高效实现 PDF 转文本,支持表格与手写识别

olmOCR 是一款开源的光学字符识别(OCR)工具,旨在高效地将 PDF 及其他文档转换为纯文本,同时保留自然的阅读顺序。 这款工具不仅支持普通文本的提取,还能处理表格、数学公式和手写内容,极大地方便了用户对文档的处理需求。 这款工具的核心优势在于其高准确率。

大模型是否有自知之明?新研究发现LLM可以知晓自己的知识范围

对于人工智能,有一个话题总会时而冒出来:「AI 是否或能否具有自我意识」? 对于这个问题,目前还没人能给出非常确切的答案,但近日 Chandar Research Lab 和 Mila - 魁北克人工智能研究所等机构的一项研究却揭开了这神秘问题的一角。 他们发现,大型语言模型(LLM)有自知之明,也就是说,只要规模够大,它们就能够知道自己对某个主题的了解程度。

昆仑万维发布天工 AI 高级搜索功能,升级分析推理、金融 / 科研能力

感谢昆仑万维天工 AI 今日发布最新版本的 AI 高级搜索功能,迎来四个方面的升级:全面升级多层次分析推理能力升级的金融投资专业 AI 搜索升级的科研学术专业 AI 搜索针对文档 AI 阅读分析的智能优化全面升级多层次分析推理能力在处理复杂任务时,天工 AI 推理能力支持难题拆解 自动规划 主动扩展 深度回答 图文交织。 智能搜索 Agent 把复杂的难题拆解为多个简单的问题,自动规划路径,一边思考一边执行。 自研大模型搜索 Agent,面对用户输入的问题,能够模拟人的思考和推理过程,自动生成任务规划并逐步完成预设任务路径,并在每一步检查任务的执行情况,确保最终结果的准确性。

揭秘提示词压缩技术

提示工程是一种在机器学习模型,尤其是预训练语言模型中,通过精心设计输入提示(prompt)来引导模型输出期望结果的技术。在大语言模型的使用中,提示词通常是一段文本,用来引导模型生成特定的输出或完成特定的任务。在多文档搜索、问答系统、文档自动摘要生成以及阅读理解等多样化且复杂的应用场景中,往往会面临输入提示(prompt)长度显著增加的挑战。这种超长prompt不仅加大了大型语言模型(LLM)的推理成本,还显著延长了推理时间,从而严重限制了其在需要即时响应的实时应用场景中的适用性。为了克服这一难题,优化prompt设

微软网页版 OneDrive 正式融合 Copilot:一键总结、多文件对比,AI 提高你的生产力

微软公司昨日(9 月 27 日)发布新闻稿,宣布面向获得 Copilot 许可的商业用户,正式开放网页版 OneDrive 中的 Copilot,意味着用户可以探索全新的 AI 文件处理方式。OneDrive 中的 Copilot 的技能包括:为大文件生成摘要Copilot 能够为用户生成文档摘要,节省查找关键点的时间,并帮助用户专注于最重要的内容。对比多个文档中的差异用户无需打开文件,Copilot 可以比较多个文档的差异,快速展示关键差异。回答文件内容相关话题Copilot 能够分析 OneDrive 中的文件

Claude 企业计划上线:上下文窗口 50 万词元、原生集成 GitHub,强调不拿数据训练 AI

AI 公司 Anthropic 昨日(9 月 4 日)发布新闻稿,宣布推出 Claude Enterprise 计划,主要面向企业让 AI 模型更好配合内部知识库,实现更个性化、更丰富的体验。Claude Enterprise 计划上下文窗口达到 50 万个词元(tokens),原生集成 GitHub,并调高了使用限制,可以让 Claude 更好地处理完整代码库。Anthropic 声称,用户可以为 Claude 提供相当于数百份销售日志、数十份 100 多页文档或中等规模代码库的知识。AI在线注:不过,企业不应过

科大讯飞宣布讯飞智文2.0全新版本正式上线

8月12日,科大讯飞宣布旗下智能文档产品——讯飞智文2.0全新版本正式上线。新版基于讯飞星火V4.0 大模型底座,引入全新的PPT文本生成大模型、AI PPT编排创作引擎和PPT在线编辑模组,大幅提升编辑自由度和样式多样性。新增的实时联网搜索和长文本解析功能,增强了内容的时效性和深度。同时,AI Word和AI读写功能,助力用户高效阅读和撰写文档,进行知识管理,进一步丰富了AI在文档创作领域的应用。据悉,讯飞智文自2023年11月上线以来,生成文档数已超千万。

WPS:不存在文档被用作 AI 训练的情况,与抖音豆包在 AI 层面未开展任何形式合作

今日有网友在社交平台发文称“WPS 改版了用我们的文章喂给 AI 了”“WPS 疑似把我的审签内容喂给抖音豆包 AI”。对此 WPS 进行了回应,AI在线附下:近日有部分用户反馈 WPS AI 相关问题,我们第一时间进行了严格排查及用户沟通,相关问题完全失实。我们作出如下说明:第一,我们严格遵守个人信息保护的相关法律法规,采取严格的安全保护措施,防止用户信息遭到未经授权的泄露。第二,WPS AI 定位是大语言模型技术服务的应用方,我们强调,所有用户的文档不会被用于任何 AI 训练目的,也不会在未经用户同意的情况下用

PyTorch 团队首发技术路线图,近百页文档披露 2024 下半年发展方向

最近,PyTorch 团队首次公布了开发路线图,由内部技术文档直接修改而来,披露了这个经典开源库下一步的发展方向。如果你在 AI 领域用 Python 开发,想必 PyTorch 一定是你的老朋友之一。2017 年,Meta AI 发布了这个机器学习和深度学习领域的开源库,如今已经走到了第 7 个年头。根据 Assembly AI 2021 年的统计数据,HuggingFace 上最受欢迎的 top 30 模型都能在 PyTorch 上运行,有 92% 的模型是 PyTorch 专有的,这个占比让包括 Tensor

谷歌 Gemini AI 遭质疑:未经用户同意读取 Google Drive 文档

感谢据 X 用户 @Kevin Bankston 的报告,谷歌的人工智能服务 Gemini AI 似乎在未经用户明确许可的情况下读取 Google Drive 中的私人文档。AI在线注意到,Bankston 在其推文中详细描述了这一问题。最初,他发现 Gemini 似乎在阅读他的 Google Drive 文档,但相关设置中找不到禁用该功能的选项。经进一步调查,他发现这是 Google Drive 本身的问题,而非 Google Docs,但两者可能都存在类似的漏洞。而且,根据 Gemini 人工智能的说法,用于控

“国内首款破局性 AI 开发工具”,中国电信发布星辰软件工厂:产品文档生成代码

中电信人工智能科技有限公司和中国电信人工智能研究院(TeleAI)发布了一款名为星辰大模型・软件工厂(以下简称星辰软件工厂)的产品,并称这是国内首款破局性 AI 开发工具。星辰软件工厂利用最新的多模态大模型技术,自动生成前后端代码,并进行自主测试和纠错,形成软件开发的全自动流水线。用户仅需简单写下产品文档,大模型可根据文档内容生成代码,在软件工厂内一键部署并上线。星辰大模型软件工厂从开发流程革新、代码可控生成、交互模式升级构建了三大核心能力:一、面向文档开发的协同新流程,使用更接近日常语言的项目文档来作为软件开发的

科大讯飞:讯飞星火 V4.0 正在训练中,对标 GPT-4o 的产品也在研发

科大讯飞在“深交所互动易”平台回复网友提问时透露,对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中,预计在 2024 年 6 月底发布,对标 GPT-4o 的产品正在研发中。科大讯飞方面表示,公司将紧密结合人工智能的演进和突破,把成果持续应用到智慧教育的每个产品中,不断提升产品的用户体验和客户渗透率。而在今年 4 月,科大讯飞董事长刘庆峰曾透露,今年 6 月 27 日,讯飞星火 V4.0 将正式发布。刘庆峰当时表示,星火大模型(IT之家注:讯飞星火大模型 V3.5)的通用长文本能力,包括长文档信息抽取、长

讯飞星火大模型 V3.5 春季上新,V4.0 官宣 6 月 27 日发布

感谢科大讯飞今日官宣,讯飞星火大模型 V3.5 春季上新,科大讯飞董事长刘庆峰发布讯飞星火大模型一系列新功能。刘庆峰表示,目前星火大模型通用长文本能力,包括长文档信息抽取、长文档知识问答、长文档归纳总结、长文档文本生成等,总体已经达到 GPT-4 Turbo 今年 4 月最新长文本版本的 97% 的水平,而在多个垂直领域的知识问答任务上,星火大模型长文本总体水平已经超过 GPT-4 Turbo。讯飞星火大模型 V3.5 进行了多项更新,IT之家汇总如下:支持长文本、长图文、长语音的大模型上新,首发星火图文识别大模型

微软解锁 Copilot 特性:字符上限最高调至 1.6 万、支持梳理 PDF 等文件内容

微软公司近日通过服务器更新,上调了 Windows 10、Windows 11 系统、网页版以及 Edge 浏览器中 Copilot 的字符上限,最高可以达到 1.6 万个;此外微软还支持附加 PDF 等文件以及集成笔记本。微软最初推出网页版和 Windows 版 Copilot 时,字符上限为 2000 个字符,后来增加到 4000 个字符。而在本次更新之后,Copilot 普通用户在“更有创意”模式下,字符上限调整为 8000 个;而如果订购了 Copilot Pro,字符数可以达到 1.6 万个。图源:Win

腾讯文档推出智能白板创新品类,自研开物引擎支持全端应用

4月18日,“腾讯文档,打开想象”2024产品发布会在线上举办。腾讯社交协作产品部总经理、腾讯文档负责人鄢贤卿在会上,正式发布智能白板创新品类、双核编辑“开物引擎”、云加端解决方案等产品矩阵。他表示,在自研文档品类和自研双核引擎的基座下,腾讯文档也全面搭载了AI助手,致力于打造专业、智能的Office产品体验,提升用户和企业生产力。同时,全面开启商业化尝试一年后,腾讯文档个人付费用户已突破100万,累计付费企业和组织数超2万家。智能白板、AI助手移动端等全新产品能力发布本次发布会上,腾讯文档自研产品矩阵迎来全新品类

Adobe 澄清:未经用户许可,AI 功能不会扫描分析用户文档

Adobe 近日发布澄清声明,表示不会扫描和收集用户文档数据,用于训练人工智能。Adobe 强调只有在用户主动同意相关条款的情况下,才会执行扫描等相关操作。安全记者布莱恩・克雷布斯(Brian Krebs)最近曝料,称 Adobe Acrobat 和 Reader 应用中的 AI 会扫描文档,这引起了人们对隐私问题的警惕,尤其是敏感文档。克雷布斯的这个发现迅速成为热议话题,一位用户甚至表示由于担心这个问题,将弃用 Adobe 相关产品。IT之家翻译声明部分内容如下:Adobe 表示“默认开启”,只是邀请更多用户使用