AI 能「看懂」你的唇语，悄悄话不再安全

2024-09-12 03:10

小心悄悄话被 AI 听见！（嘘）最近国外一款可以读唇语的 AI 软件火了！具体效果如下：红毯上布莱克・莱弗利小声说：“好紧张”，笑着说话时肉眼很难分辨唇语，但 AI 可以。乍一看只能看见一排白牙（bushi）的侃爷，唇语也能被轻松破解。看完后网友们开始纷纷评论，大开脑洞：求“联名”型网友：快把它和 Siri 结合一下吧！这样我就不用像小傻子一样对着电脑大喊了！测评型网友：我想用它试试“座机画质”的视频！担心安全型网友：我有点害怕，我想戴口罩了。（呜呜）实测 Readtheirlips 效果如何量子位整理了一些视频，

小心悄悄话被 AI 听见！（嘘）最近国外一款可以读唇语的 AI 软件火了！

具体效果如下：

红毯上布莱克・莱弗利小声说：“好紧张”，笑着说话时肉眼很难分辨唇语，但 AI 可以。

AI 能「看懂」你的唇语，悄悄话不再安全

乍一看只能看见一排白牙（bushi）的侃爷，唇语也能被轻松破解。

AI 能「看懂」你的唇语，悄悄话不再安全

看完后网友们开始纷纷评论，大开脑洞：

求“联名”型网友：快把它和 Siri 结合一下吧！这样我就不用像小傻子一样对着电脑大喊了！

AI 能「看懂」你的唇语，悄悄话不再安全

测评型网友：我想用它试试“座机画质”的视频！

AI 能「看懂」你的唇语，悄悄话不再安全

担心安全型网友：我有点害怕，我想戴口罩了。（呜呜）

AI 能「看懂」你的唇语，悄悄话不再安全

实测 Readtheirlips 效果如何

量子位整理了一些视频，为大家亲测了一下 Readtheirlips 的使用效果。

先试了一下阿尔特曼在斯坦福的访谈视频，把生成的文本和原始对话对照了一下，内容完美契合~

而面对小表情比较多的老马，Readtheirlips 的发挥依旧稳定。

不过以上两个视频都是人物全程正脸对着镜头的。

换成了说话时爱比划的小扎，Readtheirlips 直接显示错误。（视频中人物不是全程正脸）

AI 能「看懂」你的唇语，悄悄话不再安全

而主角换成卡帕西之后，因为他说话太快，生成的文本出现了识别错误的情况。（左侧为 Readtheirlips 生成，右侧为文字处理软件生成）

AI 能「看懂」你的唇语，悄悄话不再安全

最后，我们尝试着上传了一个 16 分钟的视频，Readtheirlips 直接显示错误，无法识别内容。

AI 能「看懂」你的唇语，悄悄话不再安全

总结一下：

Readtheirlips 识别视频的时间在一分钟左右 。

就像他们标明的那样如果人物的正脸不能正对镜头，那么模型就很难给出正确答案。

AI 能「看懂」你的唇语，悄悄话不再安全

而面对语速过快的视频内容，Readtheirlips 只能识别出其中的一些内容。

对此，团队成员回应道：

是的，我们还没有研究到这里，但是会很快解决这个问题！

AI 能「看懂」你的唇语，悄悄话不再安全

而关于上传视频的时长限制，他们这么说：

现在只支持 3 分钟以内的视频，但是以后我们会一点一点往上提升的！

AI 能「看懂」你的唇语，悄悄话不再安全

AI 如何“听”悄悄话

看完亲测视频，咱们也来唠一下 Readtheirlips 的工作原理。

看看它是怎么读取人类唇语的：

首先，研究团队用大量的标注数据（已知的嘴唇运动动作及其对应的文本内容）来对模型进行训练。

在此基础上，用户要上传一段视频，这段视频要包含说话者的面部特写，尤其是嘴部动作。

然后模型会对视频进行嘴部运动的分析：先是通过面部检测识别嘴唇的位置，然后再提取嘴唇的几何特征，（形状、开合程度、运动轨迹等），最后分析嘴唇在说话过程中的动态变化。（速度、方向和形状变化）

之后，模型会将提取的嘴唇特征与训练数据中的特征进行匹配，来识别出视频中人物所说的内容。

将识别出的单词或短语组合成完整的句子，进行一下上下文理解，确保语法和语义的正确性。

最终将识别出的内容输出为文本形式。

AI 能「看懂」你的唇语，悄悄话不再安全

开发团队

Readtheirlips 的开发团队 Symphonic Labs 是一家初创公司。

AI 能「看懂」你的唇语，悄悄话不再安全

领英上显示它今年 4 月份才刚刚成立，截至目前，公司人数不到 10 人。

AI 能「看懂」你的唇语，悄悄话不再安全

他们之前还研发过一款通过阅读唇语即可完成实时文本转录的软件 Symphonic

两款软件的试玩链接都已附上，感兴趣的朋友们可以去尝试一下~

Readtheirlips 试玩链接：

https://www.readtheirlips.com/

Symphonic 试玩链接：

https://symphoniclabs.com/

参考链接：

https://x.com/crsamra/status/1833494380357013879

本文来自微信公众号：微信公众号（ID：QbitAI），作者：关注前沿科技

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能：物体识别、翻译等

据《纽约时报》报道，下个月开始，Meta 将为其 Ray-Ban 智能眼镜带来一系列多模态 AI 功能，这些功能包括翻译、物体识别、动物及景物识别等等，已于去年 12 月进入早期测试阶段。用户只需说出“Hey Meta”并说出提示词或提出问题，便可激活该眼镜内置的 AI 助手，随后再通过镜框内置的扬声器进行回应。《纽约时报》经测试发现，在杂货店中、开车时或博物馆、动物园等多种场景之下，该眼镜可以正确识别宠物及艺术品，但并非“百分百”正确，例如难以识别远处或笼子里的动物。翻译功能方面，该眼镜支持英语、西班牙语、意大利

3/28/2024 10:00:15 PM

清源

德国研究团队发布新 AI 模型，可根据网球运动员肢体语言识别情绪

据 ScienceDaily17 日报道，德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员借助计算机辅助神经网络，准确识别了网球运动员在比赛中的肢体语言所表达的情绪。团队首次利用实际比赛数据训练了这一基于 AI 的模型，研究成果登上了最新一期人工智能领域学术期刊《知识系统》。IT之家附链接：，两所学校的体育科学、软件开发与计算机科学研究人员开发了一种特殊的 AI 模型，利用卷积神经网络识别网球运动员的情感状态，并使用模式识别程序分析了实际比赛中网球运动员的视频。卡尔斯鲁厄理工学院体育与运动科学研究所 Darko

6/21/2024 10:10:06 AM

清源

阿里达摩院发布遥感AI大模型，让AI进一步下沉到田间地头

10月20日，阿里达摩院发布业内首个遥感AI大模型，一个模型即可识别农田、农作物、建筑等地表万物，让AI进一步下沉到田间地头，大幅提升灾害防治、自然资源管理、农业估产等遥感应用的分析效率，该模型已在AI Earth地球科学云平台开放使用。遥感技术在城市运营、耕地保护、应急救灾等国计民生中的应用甚广，遥感AI则可以大幅提升既有数据的利用深度，输出更精细化、更准确的分析结果，如结合卫星照片与历史气象情况，“算”出某一块农田里作物的长势状况，让种地不再被动，而是更主动地“看天吃饭”。以往，由于遥感卫星的影像数据规模巨大、

10/20/2023 3:13:00 PM

新闻助手

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 AI视频资讯早读！7个产品更新+8个案例精选

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 大语言模型字节跳动 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊训练特斯拉 AGI 2024

顶部

AI 能「看懂」你的唇语，悄悄话不再安全

实测 Readtheirlips 效果如何

AI 如何“听”悄悄话

开发团队

相关资讯

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能：物体识别、翻译等

德国研究团队发布新 AI 模型，可根据网球运动员肢体语言识别情绪

阿里达摩院发布遥感AI大模型，让AI进一步下沉到田间地头