B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。 该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。 这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。

QQ_1740637228105.png

IndexTTS 系统经过数万小时的数据训练,已实现业内领先的性能,超越了当前流行的 TTS 系统,包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系统的多个模块经过增强,特别是在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过引入混合建模的方式,IndexTTS 能够快速纠正误读的汉字,提升了用户的使用体验。

QQ_1740637247097.png

该模型采用了最新的条件编码器和基于 BigVGAN2的语音解码器,不仅提高了训练的稳定性,还增强了声音音色的相似性及音质。团队表示,他们已经在 arXiv 上提交了相关论文,并计划在未来几周内发布模型参数和代码。此外,IndexTTS 还提供了多种测试集,包括多音节词汇以及主观和客观评测集,供研究者进行深入分析。

在多项评测中,IndexTTS 表现出色,特别是在字词错误率(WER)和扬声器相似性(SS)方面,均优于许多同行模型。例如,在普通话的测试中,IndexTTS 的字词错误率仅为1.3%,远低于其他模型的表现,显示出其强大的准确性和稳定性。同时,在音质评测中,IndexTTS 的 MOS 评分也达到4.01,展示了其出色的音质和音色。

随着技术的不断进步和应用场景的扩展,IndexTTS 的发布标志着文本转语音技术向更高水平迈进。有关该系统的更多信息,用户可以联系相关团队以获取详细的使用体验和技术支持。

项目:https://github.com/index-tts/index-tts

划重点:

🌟 IndexTTS 是基于 XTTS 和 Tortoise 的 GPT 风格 TTS 模型,能够纠正汉字的发音并控制停顿。  

📊 系统经过数万小时训练,超越了多个现有的流行 TTS 系统,展现出行业领先性能。  

🔍 IndexTTS 在多项评测中表现优异,字词错误率和音质均优于其他模型,显示其强大优势。  

相关资讯

独立录音、同声传译!小米Buds 5 Pro支持AI智能应用

小米公司宣布,其最新旗舰级TWS耳机——小米Buds5Pro,将于2月27日正式面世。 这款耳机不仅代表了小米在无线音频领域的最新成就,更以卓越的音质和多功能性,被誉为4000元以内音质最佳的耳机之一。 随着发布日期的临近,小米已经对Buds5Pro进行了多轮预热活动,揭示了其众多亮点。

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音(TTS)模型 Zonos-TTS,该模型基于 Apache2.0许可证,完全开源且可商用。 Zonos-TTS 不仅支持实时语音克隆功能,还经过20万小时的英语语音数据训练,表现出卓越的性能。 Zonos-TTS 提供了两种部署方式:支持本地部署和便捷的 API 服务。

文本转语音系统Spark-TTS:支持零样本语音克隆与细粒度控制

日前,一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。 根据最新的 X 帖子和相关研究,这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出,展现了语音合成领域的重大突破。 这款系统充分利用了大型语言模型(LLM)的强大能力,致力于实现高度准确且自然的语音合成,适用于研究和商业领域。