识别

沉寂很久的Mistral AI推出号称世界最强OCR

欧洲AI明星公司Mistral AI 今日发布 Mistral OCR，一款号称“世界最佳文档理解 API”的全新产品。 Mistral OCR 是一款光学字符识别（OCR）API，但它远不止于简单的文字识别。与其他模型不同，Mistral OCR 能够全面理解文档的每一个元素，包括媒体、文本、表格、公式等，并展现出前所未有的准确性和认知能力。

3/7/2025 10:23:03 AM

AI寒武纪

Meta在英国启动面部识别反欺诈测试，监管批准后扩大应用

去年十月，Meta 开始在国际上测试两款面部识别工具，旨在应对基于名人肖像的诈骗及帮助用户找回被盗的 Facebook 或 Instagram 账户。经过与英国监管机构的沟通，Meta 近日宣布将这项测试扩展至英国。此次面部识别工具的推出是在英国监管部门的批准下进行的。

3/5/2025 5:05:00 PM

AI在线

Meta 发布第二代AR眼镜，集成心率监测功能

Meta 近日宣布推出其项目 Aria 的下一代增强现实眼镜 ——Aria Gen2。这款新设备是在第一代 Aria 眼镜发布五年后问世，带来了全新的功能和技术改进。 Aria Gen2配备了升级的传感器阵列和 Meta 自家的定制芯片。

2/28/2025 9:25:00 AM

AI在线

超越 OCR，谷歌 AI 技术 InkSight 可精准识别手写文字

Google Research 展示了一种使用人工智能读取手写内容的新方法，名为 InkSight 的系统能够直接从手写文字的图片中提取出数字文本，无需任何中间设备。传统的手写文字识别技术主要依赖于光学字符识别 (OCR)，但这种方法在处理复杂背景、模糊不清或低光照条件下的手写文字时往往表现不佳。 InkSight 则采用了不同的思路，通过模仿人类学习阅读的过程，即通过不断地重写文本，来学习整个单词的外观和含义。

11/5/2024 6:13:58 PM

远洋

腾讯研发全球首个大熊猫模型：实时识别、统计、分析大熊猫行为并生成报告

腾讯 10 月 25 日宣布，为了帮助饲养员全方位观察大熊猫，腾讯、中国大熊猫保护研究中心、广东工业大学，联合打造了全球首个大熊猫行为智能识别模型及智慧系统。 AI在线获悉，该模型可以识别大熊猫进食、喝水、睡觉等日常行为，并自动生成日报、周报、月报等可视化数据报表。项目组通过优化 SlowFast 算法，大幅提升了系统在遮挡环境下的行为识别能力，目前室内遮挡场景下的大熊猫行为识别准确率提升到了 80% 以上。

10/26/2024 9:37:06 PM

浩渺

OpenAI GPT-4 解锁新成就：100% 识别性别、74.25% 识别年龄范围，未专门训练可媲美专业算法

科技媒体 The Decoder 昨日（10 月 9 日）发布博文，报道称最新研究表明 OpenAI 的 GPT-4 AI 模型在未经专门微调和训练情况下，能够识别面孔、判断性别，并在照片中估计年龄，其准确度媲美专业算法。来自挪威科技大学、Mizani 及 Idiap 研究所的研究人员推进这项研究，测试了 GPT-4 的生物识别能力，发现其性能和 MobileFaceNet 等专门的面部识别算法不相上下。在性别识别测试中，GPT-4 在 5400 张平衡（balanced）图像的数据集上取得了 100% 的准确率，

10/10/2024 11:56:04 AM

故渊

苏黎世联邦理工学院研究：AI 可 100% 绕过谷歌 reCAPTCHA V2 验证

据 Ars Technica 今日报道，苏黎世联邦理工学院博士生 Andreas Plesner 及其同事发表了一项新研究，研究重点放在了谷歌的验证码系统 reCAPTCHA V2 上。该研究声称，使用经过专门训练的图像识别模型运行的本地机器人在应对这类图片验证码时的表现，可以与人类相媲美，成功率达到了 100%。AI在线注：谷歌 reCAPTCHA V2 验证码通常会向用户提供一组图片，要求识别出图中的哪些部分包含自行车、巴士、人行道、楼梯或红绿灯等项目。根据谷歌的说法，该系统已在几年前逐步进入淘汰阶段，新的 r

9/28/2024 7:37:45 PM

清源

谷歌公布鲸鱼声音识别 AI 科研模型，可辨别 8 种不同鲸群

据谷歌新闻稿，谷歌公司正持续投入资源开发可用于识别鲸鱼声音的 AI 模型，其最新的多物种鲸鱼声音模型能够识别 8 种鲸鱼的叫声，并进一步细分其中两种鲸鱼的不同发声类型。谷歌表示，这项技术主要用于海洋学术研究，能够帮助科研团队获取布氏鲸等“较难以观察的”鲸群行为模式，目前该模型已公开供学术人员下载使用，AI在线附地址（点此访问）。据悉，谷歌公司自 2018 年以来便与美国国家海洋和大气管理局（NOAA）的太平洋群岛渔业科学中心合作，展开鲸鱼叫声分类的研究。最初，他们针对座头鲸开发了检测模型，成功辨识座头鲸的鸣叫声，从

9/27/2024 12:51:33 PM

漾仔

Nature子刊，川大团队机器学习结合MD，预测蛋白质变构，助力药物研发

编辑 | 萝卜皮变构药物为现代药物设计提供了一条新途径。然而，识别隐蔽的变构位点是一项艰巨的挑战。四川大学蒲雪梅教授、邵振华研究员团队提出了一种先进的计算流程，结合残基驱动的混合机器学习模型（RHML）和分子动力学（MD）模拟，成功识别出了变构位点、变构调节剂，并揭示了它们的调控机制。具体而言，在 β2 肾上腺素能受体（β2AR）中，团队发现了位于残基 D79^2.50、F282^6.44、N318^7.45和S319^7.46 附近的一个新的变构位点及潜在调节剂 ZINC5042。通过分子力学/广义 Born 表

9/25/2024 4:22:00 PM

ScienceAI

AI 能「看懂」你的唇语，悄悄话不再安全

小心悄悄话被 AI 听见！（嘘）最近国外一款可以读唇语的 AI 软件火了！具体效果如下：红毯上布莱克・莱弗利小声说：“好紧张”，笑着说话时肉眼很难分辨唇语，但 AI 可以。乍一看只能看见一排白牙（bushi）的侃爷，唇语也能被轻松破解。看完后网友们开始纷纷评论，大开脑洞：求“联名”型网友：快把它和 Siri 结合一下吧！这样我就不用像小傻子一样对着电脑大喊了！测评型网友：我想用它试试“座机画质”的视频！担心安全型网友：我有点害怕，我想戴口罩了。（呜呜）实测 Readtheirlips 效果如何量子位整理了一些视频，

9/12/2024 3:10:59 PM

清源

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

微软创始人比尔・盖茨上周宣布，计算机视觉技术在对抗每年导致 60 多万人死亡的疟疾方面取得了重大进展。盖茨在一篇博客文章中介绍了 VectorCam，这是一款由约翰霍普金斯大学苏米亚・阿查里亚博士及其团队开发的应用程序，并得到了盖茨基金会和乌干达疟疾控制计划的支持。该应用程序可以快速识别蚊子种类，这是控制疟疾传播的关键。据AI在线了解，VectorCam 利用智能手机和廉价镜头可以在几秒钟内识别蚊子，能够区分种类、确定性别，甚至评估雌性蚊子是否最近吸过血或产过卵。这项技术目前正在乌干达进行测试，并已被证明在调整杀虫

8/27/2024 10:19:33 AM

远洋

阿里云通义千问开源两款语音基座模型，识别效果优于 OpenAI Whisper

阿里云通义千问开源了两款语音基座模型 SenseVoice（用于语音识别）和 CosyVoice（用于语音生成）。SenseVoice 专注于高精度多语言语音识别、情感辨识和音频事件检测，有以下特点：多语言识别：采用超过 40 万小时数据训练，支持超过 50 种语言，识别效果上优于 Whisper 模型富文本识别：具备优秀的情感识别，能够在测试数据上达到和超过目前最佳情感识别模型的效果；支持声音事件检测能力，支持音乐、掌声、笑声、哭声、咳嗽、喷嚏等多种常见人机交互事件进行检测高效推理： SenseVoice-Sma

7/9/2024 10:17:59 AM

沛霖（实习）

德国研究团队发布新 AI 模型，可根据网球运动员肢体语言识别情绪

据 ScienceDaily17 日报道，德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员借助计算机辅助神经网络，准确识别了网球运动员在比赛中的肢体语言所表达的情绪。团队首次利用实际比赛数据训练了这一基于 AI 的模型，研究成果登上了最新一期人工智能领域学术期刊《知识系统》。IT之家附链接：，两所学校的体育科学、软件开发与计算机科学研究人员开发了一种特殊的 AI 模型，利用卷积神经网络识别网球运动员的情感状态，并使用模式识别程序分析了实际比赛中网球运动员的视频。卡尔斯鲁厄理工学院体育与运动科学研究所 Darko

6/21/2024 10:10:06 AM

清源

支持 30 种方言混说，中国电信 AI 研究院发布“星辰”超多方言语音识别大模型

中国电信人工智能研究院（TeleAI）日前宣布发布业内首个支持 30 种方言自由混说的语音识别大模型 —— 星辰超多方言语音识别大模型。据介绍，该模型可打破单一模型只能识别特定单一方言的困境，支持同时识别理解粤语、上海话、四川话、温州话等 30 多种方言，是国内支持最多方言的语音识别大模型。应用场景方面，该模型有望极大解决老年人、老少边穷地区用户信息服务无法触达的问题。该大模型研发团队首创“蒸馏膨胀”联合训练算法，解决超大规模多场景数据集和大规模参数条件下，预训练坍缩的问题，实现 1B 参数 80 层模型稳定

5/25/2024 3:47:03 PM

清源

微软限制执法机构使用 Azure 人工智能进行实时面部识别

微软似乎并不希望执法部门利用 Azure OpenAI 进行实时面部识别，该公司最近修改了其有关警方使用人工智能服务的行为准则。图源 PixabayIT之家注意到，执法机构近年来越来越多地采用人工智能技术。例如，军警技术供应商 Axon 最近宣布，他们将利用 GPT-4 模型的功能来转录移动摄像头录制的音频，这可以大大加快警方报告的制作速度。然而，最近更新的 Azure 人工智能行为准则直接针对移动摄像头。The Register 发现，微软严格禁止将 Azure 人工智能用于警用执法记录仪和车载摄像头的实时面部识

5/8/2024 6:55:59 PM

远洋

AI 将帕金森病药物设计提速十倍，可识别阻止该病症特征蛋白聚集小分子

据英国剑桥大学官网，该校研究人员通过人工智能技术大幅加快了帕金森病治疗方法的开发进程。研究人员设计并使用了一种基于 AI 的策略，从而来识别阻止 α-突触核蛋白（IT之家注：帕金森病的特征蛋白）聚集的小分子。这也是寻找帕金森病潜在治疗方法的一条途径。该团队通过机器学习技术，快速筛选了一个包含数百万个条目的化学库，以识别与淀粉样蛋白聚集体结合并阻止其增殖的小分子，最终确定了 5 种高度有效的化合物供进一步研究。凭借人工智能“借力”，初始筛查过程现已被加快了 10 倍，成本也缩减至原本的千分之一，使研发出帕金森病潜在疗

4/22/2024 7:23:38 AM

清源

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能：物体识别、翻译等

据《纽约时报》报道，下个月开始，Meta 将为其 Ray-Ban 智能眼镜带来一系列多模态 AI 功能，这些功能包括翻译、物体识别、动物及景物识别等等，已于去年 12 月进入早期测试阶段。用户只需说出“Hey Meta”并说出提示词或提出问题，便可激活该眼镜内置的 AI 助手，随后再通过镜框内置的扬声器进行回应。《纽约时报》经测试发现，在杂货店中、开车时或博物馆、动物园等多种场景之下，该眼镜可以正确识别宠物及艺术品，但并非“百分百”正确，例如难以识别远处或笼子里的动物。翻译功能方面，该眼镜支持英语、西班牙语、意大利

3/28/2024 10:00:15 PM

清源

FG2024Workshop |花样滑冰人体动作识别挑战赛与研讨会启动！

作为计算机视觉的国际重要会议之一，CCF C类国际会议FG 2024 (International Conference on Automatic Face and Gesture Recognition)将于2024年5月28-31日举办。花样滑冰人体动作识别挑战赛将作为花样滑冰人体动作识别研讨会的一部分与FG2024一起举办。背景计算机视觉中的人体行为理解主要关注于在视频中定位、分类和评估人类行为。然而，目前的任务对于细粒度动作分割和评估等实际应用来说是不足够的。为了解决这个问题，我们构建了一个数据集Skati

3/21/2024 2:14:00 PM

新闻助手

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习模态 xAI 大语言模型字节跳动 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊训练特斯拉 AGI 2024