超越 OCR,谷歌 AI 技术 InkSight 可精准识别手写文字

Google Research 展示了一种使用人工智能读取手写内容的新方法,名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本,无需任何中间设备。 传统的手写文字识别技术主要依赖于光学字符识别 (OCR),但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路,通过模仿人类学习阅读的过程,即通过不断地重写文本,来学习整个单词的外观和含义。

Google Research 展示了一种使用人工智能读取手写内容的新方法,名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本,无需任何中间设备。

超越 OCR,谷歌 AI 技术 InkSight 可精准识别手写文字

传统的手写文字识别技术主要依赖于光学字符识别 (OCR),但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。InkSight 则采用了不同的思路,通过模仿人类学习阅读的过程,即通过不断地重写文本,来学习整个单词的外观和含义。这需要研究人员训练 AI 模型,使其能够识别和模仿人类的手写风格。

超越 OCR,谷歌 AI 技术 InkSight 可精准识别手写文字

InkSight 在处理复杂场景时表现更为出色,例如当照片光线昏暗、文本部分遮挡或背景干扰时,InkSight 能够更准确地识别手写文字。研究人员发现,人类能够阅读 InkSight 生成的文本描摹的准确率高达 87%,其中三分之二的描摹结果与真实手写几乎无法区分。

对于喜欢手写的人来说,InkSight 具有巨大的潜力。想象一下,只需将手写笔记拍摄照片,即可立即将其转换为可搜索的数字文本。对于那些字迹潦草的人来说,InkSight 可以将难以辨认的手写内容转化为清晰、准确的打印文本。

从更广阔的视角来看,这项技术对于破译和和将几个世纪以来的手写文本转换为数字形式具有重要意义。即使对于那些数字化程度较低的语言,InkSight 也能帮助保护手写遗产,并为这些语言的数字化训练提供更多资源。

AI在线注意到,谷歌并不是唯一一家致力于开发手写识别 AI 工具的公司。亚马逊的 Kindle Scribe 电子阅读器也具备将手写笔记转换为可读文本的功能。此外,Goodnotes 等数字笔记应用也推出了手写识别和编辑功能,可以将手写文字转换为可编辑的数字文本。

相关资讯

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能:物体识别、翻译等

据《纽约时报》报道,下个月开始,Meta 将为其 Ray-Ban 智能眼镜带来一系列多模态 AI 功能,这些功能包括翻译、物体识别、动物及景物识别等等,已于去年 12 月进入早期测试阶段。用户只需说出“Hey Meta”并说出提示词或提出问题,便可激活该眼镜内置的 AI 助手,随后再通过镜框内置的扬声器进行回应。《纽约时报》经测试发现,在杂货店中、开车时或博物馆、动物园等多种场景之下,该眼镜可以正确识别宠物及艺术品,但并非“百分百”正确,例如难以识别远处或笼子里的动物。翻译功能方面,该眼镜支持英语、西班牙语、意大利

德国研究团队发布新 AI 模型,可根据网球运动员肢体语言识别情绪

据 ScienceDaily17 日报道,德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员借助计算机辅助神经网络,准确识别了网球运动员在比赛中的肢体语言所表达的情绪。团队首次利用实际比赛数据训练了这一基于 AI 的模型,研究成果登上了最新一期人工智能领域学术期刊《知识系统》。IT之家附链接:,两所学校的体育科学、软件开发与计算机科学研究人员开发了一种特殊的 AI 模型,利用卷积神经网络识别网球运动员的情感状态,并使用模式识别程序分析了实际比赛中网球运动员的视频。卡尔斯鲁厄理工学院体育与运动科学研究所 Darko

阿里达摩院发布遥感AI大模型,让AI进一步下沉到田间地头

10月20日,阿里达摩院发布业内首个遥感AI大模型,一个模型即可识别农田、农作物、建筑等地表万物,让AI进一步下沉到田间地头,大幅提升灾害防治、自然资源管理、农业估产等遥感应用的分析效率,该模型已在AI Earth地球科学云平台开放使用。遥感技术在城市运营、耕地保护、应急救灾等国计民生中的应用甚广,遥感AI则可以大幅提升既有数据的利用深度,输出更精细化、更准确的分析结果,如结合卫星照片与历史气象情况,“算”出某一块农田里作物的长势状况,让种地不再被动,而是更主动地“看天吃饭”。以往,由于遥感卫星的影像数据规模巨大、