实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

2024-07-04 03:40

机器之能报道编辑：杨文这款新AI语音模型Fish Speech，模仿音色一绝。近来，AI 语音赛道突然热闹起来。一个多月前，一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢？仅三天时间就在 GitHub 狂揽 9.2k Star 量，还一度登顶 GitHub Trending 榜首并连续霸榜。没多久，字节也推出一款类似项目 Seed-TTS，喊出的口号同样是「生成自然真实的语音」。这几天，这一赛道又闯进新玩家 ——Fish Speech。据悉，该模型经过 15 万小时的数据训练，已熟

机器之能报道

编辑：杨文

这款新AI语音模型Fish Speech，模仿音色一绝。

近来，AI 语音赛道突然热闹起来。

一个多月前，一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。

火到什么程度呢？

仅三天时间就在 GitHub 狂揽 9.2k Star 量，还一度登顶 GitHub Trending 榜首并连续霸榜。

没多久，字节也推出一款类似项目 Seed-TTS，喊出的口号同样是「生成自然真实的语音」。

这几天，这一赛道又闯进新玩家 ——Fish Speech。

据悉，该模型经过 15 万小时的数据训练，已熟练掌握中英日三种语言，语音处理接近人类水平，对中文支持更是 ——

官方也甩出不少 demo——

中文句子：人间灯火倒映湖中，她的渴望让静水泛起涟漪。若代价只是孤独，那就让这份愿望肆意流淌。流入她所注视的世间，也流入她如湖水般澄澈的目光。

钟离,机器之能,15秒

视频链接：https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

英文句子：In the realm of advanced technology, the evolution of artificial intelligence stands as a monumental achievement. This dynamic field, constantly pushing the boundaries of what machines can do, has seen rapid growth and innovation. From deciphering complex data patterns to driving cars autonomously, AI's applications are vast and diverse.

说英文,机器之能,25秒

视频链接：https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

不少网友直呼：虽然有点电音，不过效果已经很不错了，语调也不会让人感到不适。

不过，也有网友提醒，这个项目虽开源但不可商用。

-1-

解说纪录片、说绕口令，它到底行不行？

Fish Speech 是一款开源文本转语音模型，由 Fish Audio 公司开发。据介绍，该模型仅有亿级参数，能够在个人设备上轻松运行和微调。

官网链接：https://fish.audio/zh-CN/text-to-speech/

其官网界面设计简洁，在「发现」一栏列表里有网友训练的各种声音，例如丁真、川普、雷军、邓紫棋、董宇辉、单田芳等，还有 AD 学姐、流萤等二次元声音。

接下来，我们就来实际测评下。

首先是另类解说《动物世界》。

前不久，有个 00 后博主 @维 C 动物园，以发疯的方式另类解说《动物世界》而出圈。

例如，在《鸮张跋扈》这一集中，博主以一分正经、两分清奇、三分幽默、四分莫名其妙的解说方式，介绍了一种叫做穴小鸮的动物。

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

视频链接：https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

我们就用 Fish speech 中的「纪录片旁白」这个声音，给这个有大病的文案生成一段配音。

绿螳螂其实非常可爱，可爱死了，嘎嘣脆，鸡肉味，但这一切都与美洲鹑无关，因为它也自身难保，黄腹隼表示真香。黄腹隼遍布于南美洲各地，它们的视力极好，能看到10厘米以外的事物，所以我们今天的主角，不是它。

穴小鸮（xiao），江湖人称鸮鲜肉，跟我表哥一样，身高不足 30 厘米，十分可爱。正所谓「虎落平阳被犬欺，鸮在野外不如鸡」，穴小鸮常因捕食能力太差，而被邻居嘲笑。但咱不气馁，既然找不到食物，就去找食物的食物。

我们又选用丁真、邓紫棋的声音来说绕口令。

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

视频链接：https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

让特朗普说英文绕口令。

If you understand, say "understand". If you don't understand, say "don't understand". But if you understand and say "don't understand", how do I understand that you understand. Understand?

Fish Speech英文绕口令,机器之能,14秒

试听链接：https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

还有单田芳说段子。

Fish speech 的模仿能力一绝，它可以模仿特定人物的音色、语调到以假乱真的程度，比如说单田芳、邓紫棋、特朗普。

不过，它也有一些瑕疵，例如有时候它不识字，「穴小鸮」胡读一通；不懂断句，会把完整的句子读得稀碎。此外，输入的文本一旦太长，它就罢工。

-2-

三款 TTS 模型大乱斗

除了使用现成的语音外，我们还可以自己构建语音。

操作也很 easy。只需点击网页上方的「构建声音」，即可跳转至新界面。然后上传封面、填写声音名称、输入音频即可。

其中，在输入音频这个环节，我们既可以上传现成的，也可以自己录制，不过它对时长有限制，最好在 30 秒左右。

例如，我们上传了一段徐志胜说脱口秀的音频。

来看一下效果：

李长庚最近有点烦。

他此刻骑在一只老鹤身上，在云雾里穿梭，想入了神。眼看快飞到启明殿，老鹤许是糊涂了，非但不减速，反而直直地撞了过去。李长庚回过神来，连连挥动拂尘，它才急急一拍双翅，歪歪斜斜地落在殿旁台阶上。

Fish Speech读小说,机器之能,23秒

音色和徐志胜不能说毫不相干，只能说一模一样，连口音都很像。

我们还让它与「开源语音 TTS 天花板级别」的 ChatTTS 、Seed-TTS 进行 PK。

中文文本 : 好呀，哈哈哈哈哈，喜欢笑的人运气都不会差哦，希望你每天笑口常开。

Fish Speech:

Fish Speech,机器之能,11秒

试听链接：https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

ChatTTS:

ChatTTS,机器之能,6秒

试听链接：https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

由于字节的 Seed-TTS 还无法亲自体验，所以我们就用了它的官方示例。

Seed-TTS,机器之能,6秒

这三款 TTS 模型各有千秋，如果非要给它们的实力排个序，Seed-TTS 的断句、语音语调最自然，其次就是 ChatTTS，Fish Speech 虽然还有所欠缺，但它赢在可自定义音色上。

链接 ——

https://fish.audio/zh-CN/text-to-speech/

https://github.com/fishaudio/fish-speech

https://chattts.com/

https://bytedancespeech.github.io/seedtts_tech_report/

https://github.com/BytedanceSpeech/seed-tts-eval

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

日前，一款名为 Spark-TTS 的先进文本转语音系统引发了 AI 社区的广泛讨论。根据最新的 X 帖子和相关研究，这款系统以其零样本语音克隆和细粒度语音控制能力脱颖而出，展现了语音合成领域的重大突破。这款系统充分利用了大型语言模型（LLM）的强大能力，致力于实现高度准确且自然的语音合成，适用于研究和商业领域。

3/6/2025 11:29:00 AM

AI在线

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目标

千万种声音里，只听到你。最近几年来，很多人都在使用降噪耳机。这种设备能让人在吵闹的环境中享受安静，安心地听音乐或工作。通常，降噪耳机会通过内置的芯片算法对外界噪音信号进行计算，然后由喇叭发出反向声波进行抵消的方式创造安静环境。不过安静归安静，大多数情况下人们还是需要交流的，这就带来了不小的挑战。人们曾提出过各种解决方案，比如苹果最新款的 AirPods Pro 就会自动调整，如果耳机感知到人在说话就会停止降噪，但用户是无法控制听谁说话，或何时关掉降噪的。近日，华盛顿大学的一个团队开发了一种 AI 系统，让戴着耳机的

6/11/2024 12:22:00 AM

机器之心

击败扩散模型，清华朱军团队基于薛定谔桥的新语音合成系统来了

近日，由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1]，凭借其「数据到数据」的生成范式，在样本质量和采样速度两方面，均击败了扩散模型的「噪声到数据」范式。论文链接：：代码实现： 2021 年起，扩散模型（diffusion models）开始成为文本到语音合成（text-to-speech, TTS）领域的核心生成方法之一，如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后，又有众多研究工作有效提升了扩

12/25/2023 11:54:00 AM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

实测最新AI语音模型：让特朗普、丁真说绕口令堪称以假乱真，但断句整得稀碎

相关资讯

文本转语音系统Spark-TTS：支持零样本语音克隆与细粒度控制

AI降噪耳机，可在嘈杂人群中单独通话，看一眼锁定目标

击败扩散模型，清华朱军团队基于薛定谔桥的新语音合成系统来了