AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

千万种声响里，只听到你。最近几年来，良多人都在利用降噪耳机。这种设置装备摆设能让人在吵闹的情况中享受恬静，安心地听音乐或工作。通常，降噪耳机会通过内置的芯片算法对外界噪音信号进行计算，然后由喇叭发出反向声波进行抵消的方式创造恬静情况。不过恬静归恬静，大多数情况下人们还是需要交流的，这就带来了不小的挑战。人们曾提出过各种解决方案，比如苹果最新款的 AirPods Pro 就会自动调整，如果耳机感知到人在措辞就会停止降噪，但用户是无法控制听谁措辞，或何时关掉降噪的。近日，华盛顿大学的一个团队开发了一种 AI 体系，让戴着耳机的

千万种声响里，只听到你。

最近几年来，良多人都在利用降噪耳机。这种设置装备摆设能让人在吵闹的情况中享受恬静，安心地听音乐或工作。

通常，降噪耳机会通过内置的芯片算法对外界噪音信号进行计算，然后由喇叭发出反向声波进行抵消的方式创造恬静情况。

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

不过恬静归恬静，大多数情况下人们还是需要交流的，这就带来了不小的挑战。人们曾提出过各种解决方案，比如苹果最新款的 AirPods Pro 就会自动调整，如果耳机感知到人在措辞就会停止降噪，但用户是无法控制听谁措辞，或何时关掉降噪的。

近日，华盛顿大学的一个团队开发了一种 AI 体系，让戴着耳机的用户看着措辞的人三到五秒钟来「记录」他们。

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

该体系名为「目的语音听觉」（Target Speech Hearing），能驱动降噪耳机消弭情况中的所有其他声响，并及时播放已记录的措辞者的声响。这样一来，即使听众在嘈杂的地方走动并且不再面对措辞者，也不会丢失重要信息了。 AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

视频：https://www.youtube.com/watch?v=ArGKgodEUSo

对这种有点像碟中谍电影里的黑科技，人们纷纷表示欢迎：

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

也有人表示，它或许能拯救良多婚姻：

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

华盛顿大学团队于 5 月 14 日在檀香山举行的 ACM CHI 计算机体系人因会议上展示了他们的钻研成果，还获得了大会的最佳 lunwen。概念验证设置装备摆设的代码已经开源，可供他人利用。

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

论文《Look Once to Hear: Target Speech Hearing with Noisy Examples》：https://programs.sigchi.org/chi/2024/program/content/147319

GitHub 链接：https://github.com/vb000/LookOnceToHear

要利用该体系，佩带配有话筒的常规降噪耳机的人只需要点击按钮，同时将头转向正在措辞的人。

然后，来自该措辞者声响的声波会同时到达耳机两侧的话筒，误差幅度为 16 度。耳机将该信号发送到板载嵌入式计算机，其中的机器学习软件会在那里学习所需措辞者的声响模式。

体系会锁定该措辞者的声响，并继续将其播放给听者，即使这对措辞者不断变化站位，四处走动也能保持跟随。

随着措辞者不断讲话，AI 体系关注备案声响的能力会不断提高，从而为体系提供更多的训练数据。

作家表示，该钻研的主要贡献包括：

实现了带有噪声示例的备案收集。设计并比较了两个不同的备案收集 —— 波束形成器收集和知识蒸馏收集 —— 以利用短双耳噪声示例即可有效生成一个可捕捉目的措辞人特征的嵌入向量。

及时嵌入式的目的语音听觉收集。TSH 利用生成的嵌入，随后利用 IoT 级别 CPU 上及时运行的优化收集提取目的语音。为此，钻研者探索了各种模型和体系级优化，实现了在嵌入式设置装备摆设上及时运行的轻量级目的语音听觉收集。

推广到现实世界的多径、HRTF 和移动性。作家提出了一种训练方法，仅利用合成数据，也可以保证体系不会被现实世界中未见过的目的干扰。

此外，该钻研明确利用多路径进行训练，以推广到室内和室外情况。作家还引入了一种微调机制，可以解决移动源和听众头部方向的突然变化（高达 90°/s 的角速度），并允许体系在备案期间处理听者头部方向多至 18° 的误差。

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

具有噪声消弭功能的端到端目的语音听力体系。（b）一对 Sony WH-1000XM4 耳机在各个频率下启用和不启用主动噪声消弭的噪声隔离性能。低频下较大的值是由于入耳式话筒拾取了佩带者的声响。（c）模型推理时间的 CDF 图，包括和不包括从输出到输入的缓存缓冲区副本。

「如今，良多人把人工智能等同于基于收集的聊天机器人，可以回答问题，」华盛顿大学保罗・G・艾伦计算机科学与工程学院教授、该钻研主要作家 Shyam Gollakota 说道。「但在这个项目中，我们开发的 AI 可根据佩带耳机的人的偏好来改变他们的听觉感知。有了我们的设置装备摆设，即使身处嘈杂的情况中，有良多人在措辞，你现在也可以清楚地听到单个措辞人的声响。」

该团队对 21 名志愿者测试了该体系，受试者对已备案措辞者声响清晰度的评分平均几乎是未过滤音频的两倍。

据介绍，这项钻研建立在华盛顿大学之前的「Semantic Hearing」钻研的基础上（论文《Semantic Hearing: Programming Acoustic Scenes with Binaural Hearables》），该钻研允许用户选择他们想听到的特定声响类别（例如鸟叫声或声响），并消弭情况中的其他声响。

目前 TSH 体系一次只能备案一个对话人，且只有在没有其他巨大声响从目的措辞人相同方向传来时才能备案措辞人。如果用户对音质不满意，则可以对措辞者进行另一次备案以提高清晰度。

该团队表示，在未来这样的体系可以扩展到耳塞和助听器等更多设置装备摆设上。

参考内容：

https://www.washington.edu/news/2024/05/23/ai-headphones-noise-cancelling-target-speech-hearing/

{{userData.name}}已认证

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目的

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

大模型的高考数学成绩单：及格已经非常好了

设计素材不用愁！10 组高质量中秋节主题 Midjourney 提示词

全球首个「智能体文明」诞生！一千个智能体在「我的世界」自由发展

顺丰发布“丰语”大语言模型：摘要准确率超 95%，号称物流垂域能力超越通用模型

AI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

用60%成本干80%的事，DeepSeek分享沉淀多年的高性能深度学习架构

研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”

夸克发布全新 CueMe 智能对话助手，支持上千种体裁、2 万字长文

港大发布OpenCity: 大模型驱动下的智慧城市”新内核”