语音 - AI在线

微软 Azure 新增 9 款逼真 AI 语音，包括美式英语、中文等

2023 年 9 月，微软 Azure 团队宣布推出适用于商业客户的一系列逼真 AI 语音。本周微软表示，9 种更真实的人工智能声音现在普遍可供这些用户使用。根据微软博客文章，这些新语音可用于各种工作和任务，例如商务聊天机器人、语音助手、电子学习以及娱乐和游戏领域。微软表示：“这一扩展扩大了我们在 91 种语言及其变体中表达内容的能力。这一进展凸显了我们对克服语言障碍和促进更具包容性和可访问性的全球通信环境的坚定承诺。”这九款新语音现已在所有 Azure 地区上线，包括：美式英语 - en-US-AvaMultil

Meta用《圣经》训练超多语言模型：识别1107种、辨认4017种语言

在《圣经》中有一个巴别塔的故事，说是人类联合起来计划兴建一座高塔，希望能通往天堂，但神扰乱了人类的语言，计划也就因此失败。到了今天，AI 技术有望拆除人类语言之间的藩篱，帮助人类造出文明的巴别塔。

微软NaturalSpeech 2来了，基于扩散模型的语音合成

文本到语音合成（Text to Speech，TTS）作为生成式人工智能（Generative AI 或 AIGC）的重要课题，在近年来取得了飞速发展。多年来，微软亚洲研究院机器学习组和微软 Azure 语音团队持续关注语音合成领域的研究与相关产品的研发。为了合成既自然又高质量的人类语音，NaturalSpeech 研究项目（）应运而生。NaturalSpeech 的研究分为以下几个阶段：1）第一阶段，在单个说话人上取得媲美人类的语音质量。为此，研究团队在2022年推出了 NaturalSpeech 1，在 LJS

使用魔搭开发自己的语音AI：从入门到精通

语音AI是最早从实验室走向应用的AI技术，其发展史就是不断创新、解锁应用的历史，从1995年 Dragon Dictate的桌面孤立词语音识别，到2011年苹果的手机语音助手SIRI，再到当下百花齐放的各种智能语音应用。由于技术的快速进步，以及各大云计算厂商以API形式提供的语音AI能力，目前开发者已能便捷使用语音AI去搭建应用。但API也存在局限性，不少开发者希望获得更多、更底层的把控力，希望对API背后AI模型有更深入的了解；不只是开发应用，还可以开发模型；不只是调用API接口，还可以通过对模型的训练或微调（f

产业实践推动科技创新，京东科技集团3篇论文入选ICASSP 2021

ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕，凭借在语音技术领域的扎实积累和前沿创新，京东科技集团的3篇论文已经被 ICASSP 2021接收。

网易云信神经网络音频降噪算法：提升瞬态噪声抑制效果，适合移动端设备

机器之心专栏网易云信音频实验室网易云信音频实验室自主研发了一个针对瞬态噪声的轻量级网络音频降噪算法（网易云信 AI 音频降噪），对于 Non-stationary Noise 和 Transient Noise 都有很好的降噪量，并且控制了语音信号的损伤程度，保证了语音的质量和理解度。基于信号处理的传统音频降噪算法对于 Stationary Noise（平稳噪声）有比较好的降噪效果。但是对于 Non-stationary Noise（非平稳噪声），特别是 Transient Noise（突发噪声）降噪效果较差，而且

《语音识别基础：（一）语音是什么》

从最起初的一声巨响，到梵音天籁，到耳旁的窃窃私语，到妈妈喊我回家吃饭，总离不开声音。声音是这个世界存在并运动着的证据。

纯PyTorch语音工具包SpeechBrain开源，Kaldi：我压力有点大

距离 Mirco Ravanelli 宣布打造新的语音工具包过去了一年多，SpeechBrain 真的如期而至。