AI 能「看懂」你的唇语，悄悄话不再安全

应用
9月12日
编辑

清源

小心悄悄话被 AI 听见！（嘘）最近国外一款可以读唇语的 AI 软件火了！具体效果如下：红毯上布莱克・莱弗利小声说：“好紧张”，笑着说话时肉眼很难分辨唇语，但 AI 可以。乍一看只能看见一排白牙（bushi）的侃爷，唇语也能被轻松破解。看完后网友们开始纷纷评论，大开脑洞：求“联名”型网友：快把它和 Siri 结合一下吧！这样我就不用像小傻子一样对着电脑大喊了！测评型网友：我想用它试试“座机画质”的视频！担心安全型网友：我有点害怕，我想戴口罩了。（呜呜）实测 Readtheirlips 效果如何量子位整理了一些视频，

小心悄悄话被 AI 听见！（嘘）最近国外一款可以读唇语的 AI 软件火了！

具体效果如下：

红毯上布莱克・莱弗利小声说：“好紧张”，笑着说话时肉眼很难分辨唇语，但 AI 可以。

AI 能「看懂」你的唇语，悄悄话不再安全

乍一看只能看见一排白牙（bushi）的侃爷，唇语也能被轻松破解。

AI 能「看懂」你的唇语，悄悄话不再安全

看完后网友们开始纷纷评论，大开脑洞：

求“联名”型网友：快把它和 Siri 结合一下吧！这样我就不用像小傻子一样对着电脑大喊了！

AI 能「看懂」你的唇语，悄悄话不再安全

测评型网友：我想用它试试“座机画质”的视频！

AI 能「看懂」你的唇语，悄悄话不再安全

担心安全型网友：我有点害怕，我想戴口罩了。（呜呜）

AI 能「看懂」你的唇语，悄悄话不再安全

实测 Readtheirlips 效果如何

量子位整理了一些视频，为大家亲测了一下 Readtheirlips 的使用效果。

先试了一下阿尔特曼在斯坦福的访谈视频，把生成的文本和原始对话对照了一下，内容完美契合~

而面对小表情比较多的老马，Readtheirlips 的发挥依旧稳定。

不过以上两个视频都是人物全程正脸对着镜头的。

换成了说话时爱比划的小扎，Readtheirlips 直接显示错误。（视频中人物不是全程正脸）

AI 能「看懂」你的唇语，悄悄话不再安全

而主角换成卡帕西之后，因为他说话太快，生成的文本出现了识别错误的情况。（左侧为 Readtheirlips 生成，右侧为文字处理软件生成）

AI 能「看懂」你的唇语，悄悄话不再安全

最后，我们尝试着上传了一个 16 分钟的视频，Readtheirlips 直接显示错误，无法识别内容。

AI 能「看懂」你的唇语，悄悄话不再安全

总结一下：

Readtheirlips 识别视频的时间在一分钟左右 。

就像他们标明的那样如果人物的正脸不能正对镜头，那么模型就很难给出正确答案。

AI 能「看懂」你的唇语，悄悄话不再安全

而面对语速过快的视频内容，Readtheirlips 只能识别出其中的一些内容。

对此，团队成员回应道：

是的，我们还没有研究到这里，但是会很快解决这个问题！

AI 能「看懂」你的唇语，悄悄话不再安全

而关于上传视频的时长限制，他们这么说：

现在只支持 3 分钟以内的视频，但是以后我们会一点一点往上提升的！

AI 能「看懂」你的唇语，悄悄话不再安全

AI 如何“听”悄悄话

看完亲测视频，咱们也来唠一下 Readtheirlips 的工作原理。

看看它是怎么读取人类唇语的：

首先，研究团队用大量的标注数据（已知的嘴唇运动动作及其对应的文本内容）来对模型进行训练。

在此基础上，用户要上传一段视频，这段视频要包含说话者的面部特写，尤其是嘴部动作。

然后模型会对视频进行嘴部运动的分析：先是通过面部检测识别嘴唇的位置，然后再提取嘴唇的几何特征，（形状、开合程度、运动轨迹等），最后分析嘴唇在说话过程中的动态变化。（速度、方向和形状变化）

之后，模型会将提取的嘴唇特征与训练数据中的特征进行匹配，来识别出视频中人物所说的内容。

将识别出的单词或短语组合成完整的句子，进行一下上下文理解，确保语法和语义的正确性。

最终将识别出的内容输出为文本形式。

AI 能「看懂」你的唇语，悄悄话不再安全

开发团队

Readtheirlips 的开发团队 Symphonic Labs 是一家初创公司。

AI 能「看懂」你的唇语，悄悄话不再安全

领英上显示它今年 4 月份才刚刚成立，截至目前，公司人数不到 10 人。

AI 能「看懂」你的唇语，悄悄话不再安全

他们之前还研发过一款通过阅读唇语即可完成实时文本转录的软件 Symphonic

两款软件的试玩链接都已附上，感兴趣的朋友们可以去尝试一下~

Readtheirlips 试玩链接：

https://www.readtheirlips.com/

Symphonic 试玩链接：

https://symphoniclabs.com/

参考链接：

https://x.com/crsamra/status/1833494380357013879

本文来自微信公众号：微信公众号（ID：QbitAI），作者：关注前沿科技

给TA打赏

共{{data.count}}人

人已打赏

AI Readtheirlips 唇语视频识别

谢尔盖布林：谷歌不敢用Transformer，作者全跑路了，现在我每天都在写代码

2024-9-12 14:39:00

厉害了！Adobe新出Firefly视频模型，2分钟速成高清大片

2024-9-12 15:44:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部