腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

当6亿用户习惯每天通过QQ发送语音和进行视频通话,或者在群里与网友语音接龙完成一场Pia戏,又或是与好友一起派对语音答题的时候,大家可曾想过,在不同场景下始终清晰、流畅的QQ音视频体验背后,到底是什么黑科技在支撑这些场景中“声”与“话”的美好?今年11月16日召开的谷歌2021开发者大会期间,大会官网更新了一则案例——《TensorFlow助力:AI语音降噪打造QQ音视频通话新体验》,作者正是QQ音视频通话技术团队。作为谷歌TensorFlow的优秀应用案例,腾讯QQ团队在该文中详细揭秘了语音增强技术在QQ音视频功

当6亿用户习惯每天通过QQ发送语音和进行视频通话,或者在群里与网友语音接龙完成一场Pia戏,又或是与好友一起派对语音答题的时候,大家可曾想过,在不同场景下始终清晰、流畅的QQ音视频体验背后,到底是什么黑科技在支撑这些场景中“声”与“话”的美好?

今年11月16日召开的谷歌2021开发者大会期间,大会官网更新了一则案例——《TensorFlow助力:AI语音降噪打造QQ音视频通话新体验》,作者正是QQ音视频通话技术团队。作为谷歌TensorFlow的优秀应用案例,腾讯QQ团队在该文中详细揭秘了语音增强技术在QQ音视频功能中的研发与应用。

腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

借助TensorFlow,QQ搭建AI降噪模型训练框架

在如今的应用市场中,音视频通话功能几乎已成为APP的标配。2021年10月份AppStore中国区下载榜前100名中,超过70%的APP配备音视频通话功能。音视频功能的体验,是衡量一款APP体验是否优秀的重要指标。

而优化音视频通话质量,降噪算法是核心技术之一。

目前,主流降噪方案主要有传统降噪和AI降噪两种。传统降噪方法计算量低,具有实时进行语音降噪的优势,但与此同时,因其基于数学和物理原理进行推导,过程中难免基于人认知的理想先验假设,这使得传统降噪对实际场景中频发的多种类、非平稳噪声表现不佳。

AI 降噪是最近兴起的基于数据驱动的降噪方法,能够有效的应对各种突发的非平稳噪声,但前期需要经过大量的数据训练,以及搭建合适的数据模型作为基础。而模型在移动端的部署,需要权衡模型大小、降噪效果、CPU 占用率和内存占用率等多个因素,由此给降噪技术的实现带来了一定的挑战。

为解决6亿用户对QQ音视频的庞大需求,腾讯QQ 团队基于开源TensorFlow机器学习平台,搭建了 AI 降噪与噪声场景分类的并行训练框架,并设计了音频降噪、音质提升和模型优化算法。

腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

噪声数据的多样性是提高降噪模型泛化性的关键,因此,在训练模型时,腾讯QQ团队通过若干等时长音频数据的“投喂”和场景训练,结合合适的数据扩充,进一步提升了模型泛化能力,结合精细化设计的网络结构,能够让 AI 降噪模型适应生活中常见的几百种噪声,为用户提供具有 AI 加持的智能通讯体验。

同时,腾讯QQ团队还借助 TensorFlow Lite 的量化功能减小模型尺寸,在模型的降噪效果基本不受影响的前提下,极大提升了性能优势并成功部署到产品功能中。

AI 降噪算法+蒸馏技术模型优化,打造实时、高质量的清晰通话体验

在案例中,腾讯QQ团队指出,AI降噪算法包括音频降噪模块和音质提升模块两大方面。

腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

音频降噪模块主要是通过针对带噪声音频中的干净人声进行建模,再提取出带噪音频的频域特征,将带噪声音频与干净音频的的频域特征进行对比和计算,从而使AI对人声之外常见的开门声、键盘声、走路声等音频具备更精准的识别能力和降噪处理,从嘈杂环境中剥离出干净语音。

腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

在此基础上,腾讯QQ团队又加入了音质提升模块,以平衡降噪幅度,确保噪声去除的更加干净,同时避免导致其它有用的音频被消音,确保实时降噪过程中“有用的信息都进来,无用的噪音都隔离”。

当代人生活更加多元,餐厅、咖啡馆、车厢、影院以及街道、小区等不同场景,晴天、雨天、台风天等不同天气,也都伴生着不同种类的噪声,也都有可能对用户的音视频体验带来干扰。

为测试AI降噪面向不同场景的深度优化能力,腾讯QQ团队还选取了办公场景下常见的百种噪声:键盘声、关门声、风扇声等噪音,结合干净人声按照 0dB、5dB、10dB 和 15dB 信噪比制作混合音频,分别测试原始降噪模型以及采用蒸馏技术提升后的AI-Denoise-student模型的表现。

腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

测试结果显示,短时目标清晰度(STOI)与语音质量的感知评估(PESQ)均有所提升,并且随着降噪量的提升,AI降噪效果的优势还能进一步凸显。

腾讯QQ黑科技亮相2021谷歌开发者大会官网,基于TFlite部署AI语音降噪

优质的社交功能体验,往往藏在用户“看不见”的地方

社交软件几乎占据了当代人使用手机的大半时间,它不仅是人们日常交往中至关重要的工具,同时也紧密关系着用户体验与社交质量。

而在每一条文字或语音信息的背后,在每一通音频或视频通话的背后,都有来自无数环节的技术支持,每一个环节的优劣,也都关系着用户体验的好坏——用一句比较流行的话来说,就是“用尽了全身力气,才能显得毫不费力”。

腾讯QQ团队基于TensorFlow研发的降噪技术,能够通过AI算法带来智能的降噪功能和清晰、干净的音视频体验,对于行业难点之一的音频降噪同时保证音质效果,也有了针对性的优化方案,对语音质量和视频通话带来更好的技术保障。

腾讯QQ一直专注社交与沟通,致力于提供优质的社交体验。许多音视频相关的功能如趣味变声、语音暂停等功能都率先出现在QQ中。这些功能也受到了年轻人的普遍喜爱。据悉,腾讯QQ未来还将在AI基础算法、模型方面加强研究,拓展更多元的社交应用场景。

附录:

TensorFlow 助力:AI 语音降噪打造 QQ 音视频通话新体验

https://mp.weixin.qq.com/s/F_QrRFPiEzG3rdyxU_nK2w

相关资讯

阿里大模型产品“通义听悟”升级:超长视频自由问,还会做思维导图

感谢今日阿里大模型产品“通义听悟”发布多项新功能,上线音视频问答助手“小悟”、一键 AI 改写、思维导图生成等六大功能。通义听悟接入通义千问大模型,融合了十多项 AI 功能,包括转写、翻译、角色分离、全文摘要、章节速览、发言总结、PPT 提取等,并支持标重点、记笔记。通义听悟本次升级上新了六大功能点,其中最重磅的是音视频问答助手“小悟”,关键信息直接“问”出来。小悟通过多语言 Query 处理、长篇章文本理解、指令演化框架优化及检索增强生成算法,在业内首次实现对超长音视频的单记录、跨记录、多语言自由问答,支持内容问

网易云信神经网络音频降噪算法:提升瞬态噪声抑制效果,适合移动端设备

机器之心专栏网易云信音频实验室网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法(网易云信 AI 音频降噪),对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量,并且控制了语音信号的损伤程度,保证了语音的质量和理解度。基于信号处理的传统音频降噪算法对于 Stationary Noise(平稳噪声)有比较好的降噪效果。但是对于 Non-stationary Noise(非平稳噪声),特别是 Transient Noise(突发噪声)降噪效果较差,而且

多模态搜索算法如何让视频搜索更精准?腾讯独家揭秘,超详细

一文详解多模态技术在 QQ 浏览器视频搜索上的实践经验。引言视频搜索作为搜索中最大的横向垂类,在约 50% 的搜索词下都会有视频结果的展现。然而,视频资源又不同于文本网页资源,在视频理解、视频匹配排序,以及交互行为等方面都会带来新的技术挑战。多模态技术近年逐步走进人们的视野,特别是 Transformer 结构在 NLP 领域的大放异彩后,也向视觉、音频等多模态领域延伸,为跨模态融合带来更大的便利和可能。多模态预训练(比如 ViLBERT/VisualBERT/VL-BERT/ERNIE-ViL 等)、多模态融合技