超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字

2024-11-05 06:13

Google Research 展示了一种使用人工智能读取手写内容的新方法，名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本，无需任何中间设备。传统的手写文字识别技术主要依赖于光学字符识别 (OCR)，但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路，通过模仿人类学习阅读的过程，即通过不断地重写文本，来学习整个单词的外观和含义。

Google Research 展示了一种使用人工智能读取手写内容的新方法，名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本，无需任何中间设备。

传统的手写文字识别技术主要依赖于光学字符识别 (OCR)，但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。InkSight 则采用了不同的思路，通过模仿人类学习阅读的过程，即通过不断地重写文本，来学习整个单词的外观和含义。这需要研究人员训练 AI 模型，使其能够识别和模仿人类的手写风格。

超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字

InkSight 在处理复杂场景时表现更为出色，例如当照片光线昏暗、文本部分遮挡或背景干扰时，InkSight 能够更准确地识别手写文字。研究人员发现，人类能够阅读 InkSight 生成的文本描摹的准确率高达 87%，其中三分之二的描摹结果与真实手写几乎无法区分。

对于喜欢手写的人来说，InkSight 具有巨大的潜力。想象一下，只需将手写笔记拍摄照片，即可立即将其转换为可搜索的数字文本。对于那些字迹潦草的人来说，InkSight 可以将难以辨认的手写内容转化为清晰、准确的打印文本。

从更广阔的视角来看，这项技术对于破译和和将几个世纪以来的手写文本转换为数字形式具有重要意义。即使对于那些数字化程度较低的语言，InkSight 也能帮助保护手写遗产，并为这些语言的数字化训练提供更多资源。

AI在线注意到，谷歌并不是唯一一家致力于开发手写识别 AI 工具的公司。亚马逊的 Kindle Scribe 电子阅读器也具备将手写笔记转换为可读文本的功能。此外，Goodnotes 等数字笔记应用也推出了手写识别和编辑功能，可以将手写文字转换为可编辑的数字文本。

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能：物体识别、翻译等

据《纽约时报》报道，下个月开始，Meta 将为其 Ray-Ban 智能眼镜带来一系列多模态 AI 功能，这些功能包括翻译、物体识别、动物及景物识别等等，已于去年 12 月进入早期测试阶段。用户只需说出“Hey Meta”并说出提示词或提出问题，便可激活该眼镜内置的 AI 助手，随后再通过镜框内置的扬声器进行回应。《纽约时报》经测试发现，在杂货店中、开车时或博物馆、动物园等多种场景之下，该眼镜可以正确识别宠物及艺术品，但并非“百分百”正确，例如难以识别远处或笼子里的动物。翻译功能方面，该眼镜支持英语、西班牙语、意大利

3/28/2024 10:00:15 PM

清源

德国研究团队发布新 AI 模型，可根据网球运动员肢体语言识别情绪

据 ScienceDaily17 日报道，德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员借助计算机辅助神经网络，准确识别了网球运动员在比赛中的肢体语言所表达的情绪。团队首次利用实际比赛数据训练了这一基于 AI 的模型，研究成果登上了最新一期人工智能领域学术期刊《知识系统》。IT之家附链接：，两所学校的体育科学、软件开发与计算机科学研究人员开发了一种特殊的 AI 模型，利用卷积神经网络识别网球运动员的情感状态，并使用模式识别程序分析了实际比赛中网球运动员的视频。卡尔斯鲁厄理工学院体育与运动科学研究所 Darko

6/21/2024 10:10:06 AM

清源

阿里达摩院发布遥感AI大模型，让AI进一步下沉到田间地头

10月20日，阿里达摩院发布业内首个遥感AI大模型，一个模型即可识别农田、农作物、建筑等地表万物，让AI进一步下沉到田间地头，大幅提升灾害防治、自然资源管理、农业估产等遥感应用的分析效率，该模型已在AI Earth地球科学云平台开放使用。遥感技术在城市运营、耕地保护、应急救灾等国计民生中的应用甚广，遥感AI则可以大幅提升既有数据的利用深度，输出更精细化、更准确的分析结果，如结合卫星照片与历史气象情况，“算”出某一块农田里作物的长势状况，让种地不再被动，而是更主动地“看天吃饭”。以往，由于遥感卫星的影像数据规模巨大、

10/20/2023 3:13:00 PM

新闻助手

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部

超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字

相关资讯

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能：物体识别、翻译等

德国研究团队发布新 AI 模型，可根据网球运动员肢体语言识别情绪

阿里达摩院发布遥感AI大模型，让AI进一步下沉到田间地头