AI 能「看懂」你的唇语,悄悄话不再安全

小心悄悄话被 AI 听见!(嘘)最近国外一款可以读唇语的 AI 软件火了!具体效果如下:红毯上布莱克・莱弗利小声说:“好紧张”,笑着说话时肉眼很难分辨唇语,但 AI 可以。乍一看只能看见一排白牙(bushi)的侃爷,唇语也能被轻松破解。看完后网友们开始纷纷评论,大开脑洞:求“联名”型网友:快把它和 Siri 结合一下吧!这样我就不用像小傻子一样对着电脑大喊了!测评型网友:我想用它试试“座机画质”的视频!担心安全型网友:我有点害怕,我想戴口罩了。(呜呜)实测 Readtheirlips 效果如何量子位整理了一些视频,

小心悄悄话被 AI 听见!(嘘)最近国外一款可以读唇语的 AI 软件火了!

具体效果如下:

红毯上布莱克・莱弗利小声说:“好紧张”,笑着说话时肉眼很难分辨唇语,但 AI 可以。

AI 能「看懂」你的唇语,悄悄话不再安全

乍一看只能看见一排白牙(bushi)的侃爷,唇语也能被轻松破解。

AI 能「看懂」你的唇语,悄悄话不再安全

看完后网友们开始纷纷评论,大开脑洞:

求“联名”型网友:快把它和 Siri 结合一下吧!这样我就不用像小傻子一样对着电脑大喊了!

AI 能「看懂」你的唇语,悄悄话不再安全

测评型网友:我想用它试试“座机画质”的视频!

AI 能「看懂」你的唇语,悄悄话不再安全

担心安全型网友:我有点害怕,我想戴口罩了。(呜呜)

AI 能「看懂」你的唇语,悄悄话不再安全

实测 Readtheirlips 效果如何

量子位整理了一些视频,为大家亲测了一下 Readtheirlips 的使用效果。

先试了一下阿尔特曼在斯坦福的访谈视频,把生成的文本和原始对话对照了一下,内容完美契合~

而面对小表情比较多的老马,Readtheirlips 的发挥依旧稳定。

不过以上两个视频都是人物全程正脸对着镜头的。

换成了说话时爱比划的小扎,Readtheirlips 直接显示错误。(视频中人物不是全程正脸)

AI 能「看懂」你的唇语,悄悄话不再安全

而主角换成卡帕西之后,因为他说话太快,生成的文本出现了识别错误的情况。(左侧为 Readtheirlips 生成,右侧为文字处理软件生成)

AI 能「看懂」你的唇语,悄悄话不再安全

最后,我们尝试着上传了一个 16 分钟的视频,Readtheirlips 直接显示错误,无法识别内容。

AI 能「看懂」你的唇语,悄悄话不再安全

总结一下

Readtheirlips 识别视频的时间在一分钟左右 。

就像他们标明的那样如果人物的正脸不能正对镜头,那么模型就很难给出正确答案。

AI 能「看懂」你的唇语,悄悄话不再安全

而面对语速过快的视频内容,Readtheirlips 只能识别出其中的一些内容。

对此,团队成员回应道:

是的,我们还没有研究到这里,但是会很快解决这个问题!

AI 能「看懂」你的唇语,悄悄话不再安全

而关于上传视频的时长限制,他们这么说:

现在只支持 3 分钟以内的视频,但是以后我们会一点一点往上提升的!

AI 能「看懂」你的唇语,悄悄话不再安全

AI 如何“听”悄悄话

看完亲测视频,咱们也来唠一下 Readtheirlips 的工作原理。

看看它是怎么读取人类唇语的:

首先,研究团队用大量的标注数据(已知的嘴唇运动动作及其对应的文本内容)来对模型进行训练。

在此基础上,用户要上传一段视频,这段视频要包含说话者的面部特写,尤其是嘴部动作

然后模型会对视频进行嘴部运动的分析:先是通过面部检测识别嘴唇的位置,然后再提取嘴唇的几何特征,(形状、开合程度、运动轨迹等),最后分析嘴唇在说话过程中的动态变化。(速度、方向和形状变化)

之后,模型会将提取的嘴唇特征与训练数据中的特征进行匹配,来识别出视频中人物所说的内容。

将识别出的单词或短语组合成完整的句子,进行一下上下文理解,确保语法和语义的正确性。

最终将识别出的内容输出为文本形式

AI 能「看懂」你的唇语,悄悄话不再安全

开发团队

Readtheirlips 的开发团队 Symphonic Labs 是一家初创公司。

AI 能「看懂」你的唇语,悄悄话不再安全

领英上显示它今年 4 月份才刚刚成立,截至目前,公司人数不到 10 人

AI 能「看懂」你的唇语,悄悄话不再安全

他们之前还研发过一款通过阅读唇语即可完成实时文本转录的软件 Symphonic

两款软件的试玩链接都已附上,感兴趣的朋友们可以去尝试一下~

Readtheirlips 试玩链接:

https://www.readtheirlips.com/

Symphonic 试玩链接:

https://symphoniclabs.com/

参考链接:

https://x.com/crsamra/status/1833494380357013879

本文来自微信公众号:微信公众号(ID:QbitAI),作者:关注前沿科技

相关资讯

Meta 下月将为 Ray-Ban 智能眼镜带来一系列 AI 功能:物体识别、翻译等

据《纽约时报》报道,下个月开始,Meta 将为其 Ray-Ban 智能眼镜带来一系列多模态 AI 功能,这些功能包括翻译、物体识别、动物及景物识别等等,已于去年 12 月进入早期测试阶段。用户只需说出“Hey Meta”并说出提示词或提出问题,便可激活该眼镜内置的 AI 助手,随后再通过镜框内置的扬声器进行回应。《纽约时报》经测试发现,在杂货店中、开车时或博物馆、动物园等多种场景之下,该眼镜可以正确识别宠物及艺术品,但并非“百分百”正确,例如难以识别远处或笼子里的动物。翻译功能方面,该眼镜支持英语、西班牙语、意大利

德国研究团队发布新 AI 模型,可根据网球运动员肢体语言识别情绪

据 ScienceDaily17 日报道,德国卡尔斯鲁厄理工学院和杜伊斯堡-埃森大学研究人员借助计算机辅助神经网络,准确识别了网球运动员在比赛中的肢体语言所表达的情绪。团队首次利用实际比赛数据训练了这一基于 AI 的模型,研究成果登上了最新一期人工智能领域学术期刊《知识系统》。IT之家附链接:,两所学校的体育科学、软件开发与计算机科学研究人员开发了一种特殊的 AI 模型,利用卷积神经网络识别网球运动员的情感状态,并使用模式识别程序分析了实际比赛中网球运动员的视频。卡尔斯鲁厄理工学院体育与运动科学研究所 Darko

阿里达摩院发布遥感AI大模型,让AI进一步下沉到田间地头

10月20日,阿里达摩院发布业内首个遥感AI大模型,一个模型即可识别农田、农作物、建筑等地表万物,让AI进一步下沉到田间地头,大幅提升灾害防治、自然资源管理、农业估产等遥感应用的分析效率,该模型已在AI Earth地球科学云平台开放使用。遥感技术在城市运营、耕地保护、应急救灾等国计民生中的应用甚广,遥感AI则可以大幅提升既有数据的利用深度,输出更精细化、更准确的分析结果,如结合卫星照片与历史气象情况,“算”出某一块农田里作物的长势状况,让种地不再被动,而是更主动地“看天吃饭”。以往,由于遥感卫星的影像数据规模巨大、