出门问问发布TicVoice 7.0 支持超自然语音克隆与跨语种生成能力

2025-03-07 08:50

3月6日，出门问问（Mobvoi）联合香港科技大学、上海交通大学、南洋理工大学、西北工业大学等顶尖学术机构，共同开源新一代语音生成模型Spark-TTS，并重磅推出其商业化高品质TTS引擎——TicVoice7.0。作为出门问问第七代TTS引擎，TicVoice7.0在语音生成领域实现了重大突破，开启了全新的语音生成范式。 TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。

TicVoice7.0的核心优势在于其创新的语音编码方式和建模结构。该引擎采用BiCodec编码技术，将语音编码为互补的两部分:固定序列长度的Global Token和低码率的Semantic Tokens。Global Token负责建模时序无关的全局特征，如音色，确保语音生成的全局可控性;Semantic Tokens则以wav2vec2.0提取的特征为输入，编码与文本紧密相关的信息，确保语义的强相关性。这种设计不仅解决了传统语音编码中存在的问题，还实现了语音token建模与文本token建模的高度统一，使语音生成更加高效且可控。

微信截图_20250307084939.png

基于这一创新，TicVoice7.0展现出卓越的语音克隆能力和情感表现力。它能够在3秒内敏锐捕捉声纹特征，让AI不仅能“说人话”，还能模仿人类的叹息、停顿等细微情感表达。相比上一代语音大模型，TicVoice7.0在音色相似度、情感表现及稳定性上均有显著提升，国际通用MOS评分从3.9提升至4.2，情感表现力更强，听感更自然、悦耳且稳定。

此外，TicVoice7.0在个性化定制方面也表现出色。用户可以通过调整性别、语速、基频等多种属性，精准塑造独特的声音风格。在“至臻Pro-精品发音人”定制方面，用户仅需提供20-200句语料，即可获得播音级专业配音体验，国际通用MOS评分从4.3提升至4.7，达到广播级水平，为影视、游戏等场景提供了专业级的语音生成解决方案。

目前，出门问问已将TicVoice7.0落地于旗下AI配音产品“魔音工坊”，为用户带来更好的服务和体验。该引擎不仅在客服、有声书、情感直播、影视解说等应用场景中表现出色，还通过开源生态与产学研深度协同，为行业发展注入了新动能。

Hume推出革命性文本转语音系统Octave：能理解情感与上下文

在人工智能领域，Hume AI公司最近宣布推出其全新产品Octave，这一系统被称为首个由大型语言模型（LLM）驱动的文本转语音系统。 Octave的创新之处在于其不仅能够生成自然的语音，还能理解上下文中的情感、语调、节奏和韵律，从而为用户提供更为生动和人性化的语音输出。 Hume AI的联合创始人兼首席执行官Alan Cowen在接受媒体采访时表示，Octave模型的设计初衷是为了使文本转语音的生成过程更加自然和灵活。

2/27/2025 9:27:00 AM

AI在线

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示，其能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断，用户即日起可在“智谱清言”App 上体验。据介绍，GLM-4-Voice 具备如下特点：情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。

10/25/2024 4:06:56 PM

清源