视听语音分离

ICLR 2024 | 为音视频分离提供新视角，清华大学胡晓林团队推出RTFS-Net

视听语音分离（AVSS）技术旨在通过面部信息从混合信号中分离出目标说话者的声音。这项技术能够应用于智能助手、远程会议和增强现实等应用，改进在嘈杂环境中语音信号质量。传统的视听语音分离方法依赖于复杂的模型和大量的计算资源，尤其是在嘈杂背景或多说话者场景下，其性能往往受到限制。为了突破这些限制，基于深度学习的方法开始被研究和应用。然而，现有的深度学习方法面临着高计算复杂度和难以泛化到未知环境的挑战。具体来说，当前视听语音分离方法存在如下问题：时域方法：可提供高质量的音频分离效果，但由于参数较多，计算复杂度较高，处理速度