微软NaturalSpeech 2来了,基于聚集模型的语音分解

文本到语音分解(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。多年来,微软亚洲钻研院机器学习组和微软 Azure 语音团队持续关注语音分解领域的钻研与相关产品的研发。为了分解既自然又高质量的人类语音,NaturalSpeech 钻研项目()应运而生。NaturalSpeech 的钻研分为以下几个阶段:1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,钻研团队在2022年推出了 NaturalSpeech 1,在 LJS

微软NaturalSpeech 2来了,基于聚集模型的语音分解

文本到语音分解(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。多年来,微软亚洲钻研院机器学习组和微软 Azure 语音团队持续关注语音分解领域的钻研与相关产品的研发。为了分解既自然又高质量的人类语音,NaturalSpeech 钻研项目(https://aka.ms/speechresearch)应运而生。

NaturalSpeech 的钻研分为以下几个阶段:

1)第一阶段,在单个说话人上取得媲美人类的语音质量。为此,钻研团队在2022年推出了 NaturalSpeech 1,在 LJSpeech 语音分解数据集上达到了人类录音水平的音质。

2)第二阶段,高效地实现多样化的语音分解,包含不同的说话人、韵律、风格等。为此,该联合钻研团队在2023年推出了 NaturalSpeech 2,利用聚集模型(diffusion model)实现了 zero-shot 的语音分解,只需要几秒钟的示例语音(speech prompt)模型就能分解任何说话人、韵律、风格的语音,实现了零样本语音分解的重要突破,为语音分解技巧的未来发展带来了无限可能。

3)当前,钻研团队正在开展第三阶段的钻研,为达到高自然度(高质量且多样化)的语音分解这一目标,乘势而上,开创新局面。

三大创新设计,让NaturalSpeech 2脱颖而出

于近期发布的新一代语音分解大模型 NaturalSpeech 2,经历了上万小时、多说话人的语音数据集训练,并采用了 zero-shot(展望时只提供几秒钟的目标示例语音)的方式分解新的说话人、韵律、风格的语音,以实现多样化的语音分解。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

论文链接:

https://arxiv.org/abs/2304.09116

项目演示:

https://speechresearch.github.io/naturalspeech2/

要想达到良好的 zero-shot 训练效果,面临极大挑战。先前的方法是将语音量化成失散 token,并用自返回语言模型进行建模(例如 AudioLM)。但这种方法存在很大的局限性:自返回模型面临严重的错误传播(error-propagation)问题,导致生成语音质量低下、鲁棒性差,韵律失调以及重复、漏词等问题。同时还容易陷入失散 token 量化和自返回建模的两难困境(如表1所示),即要么失散 token 难以以较高质量还原语音,要么失散 token 难以展望。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表1:先前语音分解零碎的两难处境

NaturalSpeech 2 提出了一系列创新设计,如图1所示,完美地有效规避了先前的局限,实现了零样本语音分解的重要突破。考虑到语音波形的复杂性和高维度,微软亚洲钻研院机器学习组与 Yoshua Bengio 共同提出的 Regeneration Learning 范式,为这个问题提供了创新的参考答案。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

图1:NaturalSpeech 2 零碎概览

NaturalSpeech 2 首先利用神经语音编解码器(Neural Audio Codec,如图2所示)的编码器(encoder),将语音波形转换为连续向量并用解码器(decoder)重建语音波形,再运用潜在聚集模型(Latent Diffusion Model)以非自返回的方式从文本展望连续向量。在推理时,利用潜在聚集模型和神经语音解码器从文本生成语音的波形。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

图2:NaturalSpeech 2 中的 Neural Audio Codec 概览

相比先前的语音分解零碎,NaturalSpeech 2 有以下几大优势,如表2所示:

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表2:NaturalSpeech 2 相比先前语音分解零碎的优势

1. 使用连续向量替代失散 token。失散 token 会导致序列长度过长(例如,使用8个残差向量量化器,序列长度会增加8倍),增加了展望的难度。而连续向量可以缩短序列长度,同时增加细粒度重建语音所需要的细节信息。

2. 采用聚集模型替代自返回语言模型。通过非自返回的生成方式,能避免自返回模型中的错误累积所导致的韵律不稳定、重复吐次漏词等问题。

3. 引入语音提醒机制,激发上下文学习能力。钻研员们创新设计的语音提醒机制(如图3所示),让聚集模型和时长/音高展望模块能够更高效地学习语音上下文,从而提升了零样本的展望能力。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

图3:NaturalSpeech 2 中的语音提醒机制

得益于以上设计,NaturalSpeech 2 生成的语音非常稳定、鲁棒,无需要复杂的两阶段模型来展望中间表征序列。同时,非自返回的方式和音高时长展望机制也赋予了 NaturalSpeech 2 扩展到语音之外的风格(例如歌声)的能力。

微软亚洲钻研院高级钻研员谭旭表示,语音分解是人工智能内容生成的一个非常重要的领域,该钻研团队一直致力于构建高自然度的语音分解零碎。NaturalSpeech 2 是继去年推出的 NaturalSpeech 后跨越的又一里程碑,利用大数据、大模型和零样本分解技巧,极大地丰富了语音分解的音色、韵律、风格的多样性,使语音分解更自然更像人类。

NaturalSpeech 2的语音分解性能大检测

钻研团队将 NaturalSpeech 2 的模型大小扩展到了400M,并基于4.4万小时的语音数据进行了训练。值得一提的是,即使 NaturalSpeech 2 与被模仿人“素昧平生”,只需几秒的语音提醒, NaturalSpeech 2 输出的结果也可以在韵律/音色相似度、鲁棒性和音质方面都更优于先前的 TTS 零碎。这一成果使得 NaturalSpeech 2 的性能达到了新高度,并有望为未来的 TTS 钻研提供基础性参考。

首先,在音质方面,NaturalSpeech 2 在 zero-shot 条件分解的语音显著优于先前的 TTS 零碎,如表3和表4所示。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表3:NaturalSpeech 2 和先前 TTS 零碎的主观质量得分(CMOS)对比

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表4:NaturalSpeech 2 和 VALL-E 的主观质量得分(CMOS)对比

同时,在相似度方面,NaturalSpeech 2 也能更好地生成和语音提醒相似的语音,如表5和表6所示(评估指标详细介绍参见论文)。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表5:NaturalSpeech 2 与语音提醒的韵律相似度比较

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表6:NaturalSpeech 2 的主观相似度评分 SMOS 结果

在稳定度方面,相较于既有的 TTS 模型,NaturalSpeech 2 的表现也更为优异,如表7和表8所示。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表7:NaturalSpeech 2 分解语音的词错误率

微软NaturalSpeech 2来了,基于聚集模型的语音分解

表8:NaturalSpeech 2 分解语音的可懂度测试

钻研员们还从互联网上收集了歌声数据,并将其与语音数据混合起来,共同训练模型。令人惊喜的是,无论是语音还是歌声提醒,NaturalSpeech 2 都可以进行零样本歌声分解。欢迎点击链接:https://speechresearch.github.io/naturalspeech2/,一起听一听更多 AI 分解的语音和歌声吧!

为了更好的帮助大家了解这项钻研,机器之心最新一期线上分享邀请到微软亚洲钻研院 Principal Research Manager 谭旭,为大家解读语音分解模型NaturalSpeech 2。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

分享主题:NaturalSpeech 2:基于Latent Diffusion Model的高质量Zero-Shot语音分解

嘉宾简介:谭旭,微软亚洲钻研院Principal Research Manager,钻研领域为深度学习及AI内容生成。发表论文100余篇,研发的机器翻译和语音分解零碎获得比赛冠军并达到人类水平,钻研工作如预训练语言模型MASS、语音分解模型FastSpeech/NaturalSpeech、AI音乐项目Muzic受到业界关注,多项成果应用于微软产品。钻研主页:https://ai-creation.github.io/。

分享摘要:首先介绍当前零样本语音分解零碎面临的问题,然后详细介绍NaturalSpeech 2的零碎设计理念,如何通过新颖的设计规避先前语音分解零碎的问题,最后展示NaturalSpeech 2取得的语音分解效果,以及探讨下一步的钻研方向。

直播间:关注灵活组视频号,立即预约直播。

交流群:本次直播有 QA 环节,欢迎加入本次直播交流群探讨交流。

微软NaturalSpeech 2来了,基于聚集模型的语音分解

机器之心 · 灵活组

灵活组是机器之心发起的人工智能技巧社区,聚焦于学术钻研与技巧实践主题内容,为社区用户带来技巧线上公开课、学术分享、技巧实践、走近顶尖实验室等系列内容。灵活组也将不定期举办线下学术交流会与组织人才服务、产业技巧对接等活动,欢迎所有 AI 领域技巧从业者加入。

点击阅读原文,访问灵活组官网,观看更多精彩分享;

关注灵活组服务号,获取每周直播预告。

给TA打赏
共{{data.count}}人
人已打赏
AI

微软官方亲自出教程,拿捏「Prompt工程」高级玩法

2023-5-11 14:14:00

AI

GPT-4拿下最难数学推理数据集新SOTA,新型Prompting让大模型推理能力狂升

2023-5-14 12:22:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索