OCR

OCR技术选型：数据提取哪家强？

数据是企业运营的核心资产之一。然而，超过 85% 的商业信息以非结构化数据的形式存在，如电子邮件、报告、发票和合同等，这给计算机处理带来了极大挑战。为解决这一问题，光学字符识别（OCR）技术（Mistral OCR：文档处理领域的革新者）应运而生。

4/2/2025 4:00:00 AM

大模型之路

Mistral AI 推出 Mistral OCR API：宣称最快最准光学字符识别，千页 1 美元

该 API 的定价为每千页 1 美元，单节点每分钟可处理 2000 页。Mistral OCR 模型已被用于历史文化遗产保护等场景。

3/7/2025 6:20:16 PM

溯波（实习）

号称全球性能最高！Mistral 发布全新 OCR API 全方位解析文档

在AI模型竞争的浪潮中，法国初创公司Mistral另辟蹊径，亮出了一款名为Mistral OCR的光学字符识别（OCR）API，旨在赋予企业更高级的文档理解能力。这款新工具承诺将杂乱无章的PDF和图像文件中的内容——无论是潦草的手写笔记，清晰的打印文本，还是复杂的图片、表格和公式——都精准地提取出来，并整理成结构化的数据呈现。对于那些被海量非结构化数据困扰的企业来说，这无疑是一场及时雨。

3/7/2025 9:31:00 AM

AI在线

【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务，然而，纯OCR任务偏向于模型的感知能力，对于文档场景，由于文字密度较高，现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时，需要重新进行训练，计算开销较大，成本较高。因此，本文再来看看vary和got这两个衔接工作，看看其完整的技术链路。

12/12/2024 12:25:09 AM

余俊晖

使用 OCR 识别手写文本

本文实现了基于微调TrOCR模型进行手写文本识别。 1.GNHK手写笔记数据集GNHK（GoodNotes Handwriting Kollection）手写笔记数据集由GoodNotes提供，包含来自世界各地学生的数百份英文手写笔记。下载数据集访问GNHK数据集官方网站:()，滚动到底部，同意使用条款和条件；点击第二个链接下载数据集。

12/3/2024 9:59:00 AM

小喵学AI

亮相CCIG2024，合合信息文档解析技术破解大模型语料“饥荒”难题

近日，2024中国图象图形大会在古都西安盛大开幕。本届大会由中国图象图形学学会主办，空军军医大学、西安交通大学、西北工业大学承办，通过二十多场论坛、百余项成果，集中展示了生成式人工智能、大模型、机器学习、类脑计算等多个图像图形领域的进展。大模型技术正随着科技革新实现广泛应用，满足多行业图像处理需求。大会期间，由CSIG文档图像分析与识别专委会与上海合合信息科技股份有限公司（简称“合合信息”）联合主办了《大模型技术及其前沿应用》论坛，来自华南理工大学、上海交通大学、清华大学、复旦大学、上海人工智能实验室、合合信息等高

5/29/2024 2:37:00 PM

机器之心

腾讯OCR团队斩获ICDAR大赛四项冠军

在全球文字识别（OCR）领域顶级盛会ICDAR 2023上，腾讯OCR团队基于自研算法，斩获四项冠军，这是继2017年、2019年、2021年以来，连续四届参会同时创造佳绩，共获得18项官方认证冠军，展示了腾讯OCR技术在全球的一流水平。ICDAR大会是全球文档图像分析识别领域公认的权威学术会议，每两年举办一次，赛事举办至今已经吸引了超过100多个国家的近8000支队伍参与其中。ICDAR竞赛因其极高的技术难度和强大的实用性享誉国内外，与赛后非正式刷榜不同，ICDAR官方认证的正式竞赛采用全新的数据集，并且在比赛期

10/20/2023 3:51:00 PM

新闻助手

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练