B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

2025-02-27 02:21

B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音（TTS）模型 IndexTTS 正式发布。该系统在处理中文文本时，具备独特的拼音纠正汉字发音能力，并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅，受到了广泛关注。

IndexTTS 系统经过数万小时的数据训练，已实现业内领先的性能，超越了当前流行的 TTS 系统，包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系统的多个模块经过增强，特别是在扬声器条件特征表示和音频质量优化方面进行了深度改进。通过引入混合建模的方式，IndexTTS 能够快速纠正误读的汉字，提升了用户的使用体验。

该模型采用了最新的条件编码器和基于 BigVGAN2的语音解码器，不仅提高了训练的稳定性，还增强了声音音色的相似性及音质。团队表示，他们已经在 arXiv 上提交了相关论文，并计划在未来几周内发布模型参数和代码。此外，IndexTTS 还提供了多种测试集，包括多音节词汇以及主观和客观评测集，供研究者进行深入分析。

在多项评测中，IndexTTS 表现出色，特别是在字词错误率（WER）和扬声器相似性(SS)方面，均优于许多同行模型。例如，在普通话的测试中，IndexTTS 的字词错误率仅为1.3%，远低于其他模型的表现，显示出其强大的准确性和稳定性。同时，在音质评测中，IndexTTS 的 MOS 评分也达到4.01，展示了其出色的音质和音色。

随着技术的不断进步和应用场景的扩展，IndexTTS 的发布标志着文本转语音技术向更高水平迈进。有关该系统的更多信息，用户可以联系相关团队以获取详细的使用体验和技术支持。

项目:https://github.com/index-tts/index-tts

划重点:
🌟 IndexTTS 是基于 XTTS 和 Tortoise 的 GPT 风格 TTS 模型，能够纠正汉字的发音并控制停顿。
📊 系统经过数万小时训练，超越了多个现有的流行 TTS 系统，展现出行业领先性能。
🔍 IndexTTS 在多项评测中表现优异，字词错误率和音质均优于其他模型，显示其强大优势。

独立录音、同声传译！小米Buds 5 Pro支持AI智能应用

小米公司宣布，其最新旗舰级TWS耳机——小米Buds5Pro，将于2月27日正式面世。这款耳机不仅代表了小米在无线音频领域的最新成就，更以卓越的音质和多功能性，被誉为4000元以内音质最佳的耳机之一。随着发布日期的临近，小米已经对Buds5Pro进行了多轮预热活动，揭示了其众多亮点。

2/26/2025 3:09:00 PM

AI在线

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

ZyphraAI 近日发布了其最新的多语言文本到语音（TTS）模型 Zonos-TTS，该模型基于 Apache2.0许可证，完全开源且可商用。 Zonos-TTS 不仅支持实时语音克隆功能，还经过20万小时的英语语音数据训练，表现出卓越的性能。 Zonos-TTS 提供了两种部署方式:支持本地部署和便捷的 API 服务。

2/11/2025 10:27:00 AM

AI在线

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。

3/6/2025 11:29:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿

相关资讯

独立录音、同声传译！小米Buds 5 Pro支持AI智能应用

ZyphraAI 开源 Zonos-TTS:支持实时语音克隆和多语言情感控制

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制