ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

视听语音结合（AVSS）技术旨在通过面部信息从混合旌旗灯号中结合出目标措辞者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用，改进在嘈杂环境中语音旌旗灯号质量。传统的视听语音结合格式依赖于复杂的模型和大量的盘算资源，尤其是在嘈杂背景或多措辞者场景下，其本能往往受到限制。为了突破这些限制，基于深度学习的格式开始被研究和应用。然而，现有的深度学习格式面临着高盘算复杂度和难以泛化到未知环境的挑战。具体来说，当前视听语音结合格式存在以下问题：时域格式：可提供高质量的音频结合效果，但由于参数较多，盘算复杂度较高，解决速度

视听语音结合（AVSS）技术旨在通过面部信息从混合旌旗灯号中结合出目标措辞者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用，改进在嘈杂环境中语音旌旗灯号质量。

传统的视听语音结合格式依赖于复杂的模型和大量的盘算资源，尤其是在嘈杂背景或多措辞者场景下，其本能往往受到限制。为了突破这些限制，基于深度学习的格式开始被研究和应用。然而，现有的深度学习格式面临着高盘算复杂度和难以泛化到未知环境的挑战。

具体来说，当前视听语音结合格式存在以下问题：

时域格式：可提供高质量的音频结合效果，但由于参数较多，盘算复杂度较高，解决速度较慢。

时频域格式：盘算效益更高，但与时域格式相比，历来表现不佳。它们面临三个主要挑战：

1. 缺乏工夫和频次维度的独力建模。

2. 没有充分利用来自多个感受野的视觉线索来提高模型本能。

3. 对单数特色解决不当，导致丢失关键的振幅和相位信息。

为了克服这些挑战，来自清华大学胡晓林副教授团队的研究者们提出了 RTFS-Net：一种全新的视听语音结合模型。RTFS-Net 通过收缩 – 重建的方式，在提高结合本能的同时，大幅减少了模型的盘算复杂度和参数数量。RTFS-Net 是第一个采用少于 100 万个参数的视听语音结合格式，也是第一个时频域多模态结合模型优于所有时域模型的格式。

ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

论文地址：https://arxiv.org/abs/2309.17189

论文主页：https://cslikai.cn/RTFS-Net/AV-Model-Demo.html

代码地址：https://github.com/spkgyk/RTFS-Net（即将发布）

格式简介

RTFS-Net的整体网络架构以下图1所示：

ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

图 1. RTFS-Net 的网络框架

其中，RTFS 块（如图 2 所示）对声学维度（工夫和频次）进行收缩和独力建模，在创建低复杂度子空间的同时尽量减少信息丢失。具体来说，RTFS 块采用了一种双路径架构，用于在工夫和频次两个维度上对音频旌旗灯号进行有效解决。通过这种格式，RTFS 块能够在减少盘算复杂度的同时，保持对音频旌旗灯号的高度敏感性和准确性。下面是 RTFS 块的具体工作流程：

1. 工夫 – 频次收缩：RTFS 块首先对输入的音频特色进行工夫和频次维度的收缩。

2. 独力维度建模：在完成收缩后，RTFS 块对工夫和频次维度进行独力建模。

3. 维度交融：独力解决工夫和频次维度之后，RTFS 块通过一个交融模块将两个维度的信息合并起来。

4. 重构和输出：最后，交融后的特色通过一系列逆卷积层被重构回原始的工夫 – 频次空间。

ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

图 2. RTFS 块的网络结构

跨维注意力交融（CAF）模块（如图 3 所示）有效交融音频和视觉信息，增强语音结合效果，盘算复杂度仅为之前 SOTA 格式的 1.3%。具体来说，CAF 模块首先使用深度和分组卷积操作生成注意力权重。这些权重根据输入特色的重要性动态调整，使模型能够聚焦于最相关的信息。然后，通过对视觉和听觉特色应用生成的注意力权重，CAF 模块能够在多个维度上聚焦于关键信息。这一步骤涉及到对不同维度的特色进行加权和交融，以产生一个综合的特色表示。除了注意力机制外，CAF 模块还可以采用门控机制来进一步控制不同源特色的交融程度。这种方式可以增强模型的灵活性，允许更精细的信息流控制。

ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

图 3. CAF 交融模块的结构示意图

频谱源结合 ( S^3 ) 块的设计理念在于利用单数表示的频谱信息，从混合音频中有效提取目标措辞者的语音特色。这种格式充分利用了音频旌旗灯号的相位和幅度信息，提高了源结合的准确性和效益。并使用单数网络使得 S^3 块在结合目标措辞者的语音时能够更准确地解决旌旗灯号，尤其是在保留细节和减少伪影方面表现出色，以下所示。同样地，S^3 块的设计允许容易地集成到不同的音频解决框架中，适用于多种源结合任务，并具有良好的泛化能力。

ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

实验结果

结合效果

在三个基准多模态语音结合数据集（LRS2，LRS3 和 VoxCeleb2）上，以下所示，RTFS-Net 在大幅降低模型参数和盘算复杂度的同时，接近或超越了当前最先进的本能。通过不同数量的 RTFS 块（4, 6, 12 块）的变体展示了在效益和本能之间的权衡，其中 RTFS-Net-6 提供了本能与效益的良好平衡。RTFS-Net-12 在所有测试的数据集上均表现最佳，证明了时频域格式在解决复杂音视频同步结合任务中的优势。

ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

实际效果

混合视频： ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net 女性措辞人音频：男性措辞人音频：

总结

随着大模型技术的不断发展，视听语音结合领域也在追求大模型来提升结合质量。然而，这对于端上设备并不是可行的。RTFS-Net 在保持显著降低的盘算复杂度和参数数量的同时，还实现了显著的本能提升。这表明，提高 AVSS 本能并不一定需要更大的模型，而是需要创新、高效的架构，以更好地捕捉音频和视觉模式之间错综复杂的相互作用。

{{userData.name}}已认证

ICLR 2024 | 为音视频结合提供新视角，清华大学胡晓林团队推出RTFS-Net

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

Stable Diffusion 3论文终于发布，架构细节大揭秘，对复现Sora有帮助？

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！