Bridge-TTS

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。论文链接:: 代码实现: 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩
  • 1