实测最新AI语音模型:让特朗普、丁真说绕口令堪称以假乱真,但断句整得稀碎

机器之能报道编辑:杨文这款新AI语音模型Fish Speech,模仿音色一绝。近来,AI 语音赛道突然热闹起来。一个多月前,一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。火到什么程度呢?仅三天时间就在 GitHub 狂揽 9.2k Star 量,还一度登顶 GitHub Trending 榜首并连续霸榜。没多久,字节也推出一款类似项目 Seed-TTS,喊出的口号同样是「生成自然真实的语音」。这几天,这一赛道又闯进新玩家 ——Fish Speech。据悉,该模型经过 15 万小时的数据训练,已熟

机器之能报道

编辑:杨文

这款新AI语音模型Fish Speech,模仿音色一绝。

近来,AI 语音赛道突然热闹起来。

一个多月前,一个号称「开源语音 TTS 天花板级别」的 ChatTTS 爆火。

火到什么程度呢?

仅三天时间就在 GitHub 狂揽 9.2k Star 量,还一度登顶 GitHub Trending 榜首并连续霸榜。

没多久,字节也推出一款类似项目 Seed-TTS,喊出的口号同样是「生成自然真实的语音」。

这几天,这一赛道又闯进新玩家 ——Fish Speech。

图片

据悉,该模型经过 15 万小时的数据训练,已熟练掌握中英日三种语言,语音处理接近人类水平,对中文支持更是 ——

图片

官方也甩出不少 demo——

中文句子:人间灯火倒映湖中,她的渴望让静水泛起涟漪。若代价只是孤独,那就让这份愿望肆意流淌。流入她所注视的世间,也流入她如湖水般澄澈的目光。

钟离,机器之能,15秒

视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

英文句子:In the realm of advanced technology, the evolution of artificial intelligence stands as a monumental achievement. This dynamic field, constantly pushing the boundaries of what machines can do, has seen rapid growth and innovation. From deciphering complex data patterns to driving cars autonomously, AI's applications are vast and diverse.

说英文,机器之能,25秒

视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

不少网友直呼:虽然有点电音,不过效果已经很不错了,语调也不会让人感到不适。

图片

图片

不过,也有网友提醒,这个项目虽开源但不可商用。

图片

-1-

解说纪录片、说绕口令,它到底行不行?

Fish Speech 是一款开源文本转语音模型,由 Fish Audio 公司开发。据介绍,该模型仅有亿级参数,能够在个人设备上轻松运行和微调。

官网链接:https://fish.audio/zh-CN/text-to-speech/

其官网界面设计简洁,在「发现」一栏列表里有网友训练的各种声音,例如丁真、川普、雷军、邓紫棋、董宇辉、单田芳等,还有 AD 学姐、流萤等二次元声音。

图片

接下来,我们就来实际测评下。

首先是另类解说《动物世界》。

前不久,有个 00 后博主 @维 C 动物园,以发疯的方式另类解说《动物世界》而出圈。

例如,在《鸮张跋扈》这一集中,博主以一分正经、两分清奇、三分幽默、四分莫名其妙的解说方式,介绍了一种叫做穴小鸮的动物。

实测最新AI语音模型:让特朗普、丁真说绕口令堪称以假乱真,但断句整得稀碎

视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

我们就用 Fish speech 中的「纪录片旁白」这个声音,给这个有大病的文案生成一段配音。

绿螳螂其实非常可爱,可爱死了,嘎嘣脆,鸡肉味,但这一切都与美洲鹑无关,因为它也自身难保,黄腹隼表示真香。黄腹隼遍布于南美洲各地,它们的视力极好,能看到10厘米以外的事物,所以我们今天的主角,不是它。

穴小鸮(xiao),江湖人称鸮鲜肉,跟我表哥一样,身高不足 30 厘米,十分可爱。正所谓「虎落平阳被犬欺,鸮在野外不如鸡」,穴小鸮常因捕食能力太差,而被邻居嘲笑。但咱不气馁,既然找不到食物,就去找食物的食物。

我们又选用丁真、邓紫棋的声音来说绕口令。

实测最新AI语音模型:让特朗普、丁真说绕口令堪称以假乱真,但断句整得稀碎

视频链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

让特朗普说英文绕口令。

 If you understand, say "understand". If you don't understand, say "don't understand". But if you understand and say "don't understand", how do I understand that you understand. Understand?

Fish Speech英文绕口令,机器之能,14秒

试听链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

还有单田芳说段子。

Fish speech 的模仿能力一绝,它可以模仿特定人物的音色、语调到以假乱真的程度,比如说单田芳、邓紫棋、特朗普。

不过,它也有一些瑕疵,例如有时候它不识字,「穴小鸮」胡读一通;不懂断句,会把完整的句子读得稀碎。此外,输入的文本一旦太长,它就罢工。

-2-

三款 TTS 模型大乱斗

除了使用现成的语音外,我们还可以自己构建语音。

操作也很 easy。只需点击网页上方的「构建声音」,即可跳转至新界面。然后上传封面、填写声音名称、输入音频即可。

其中,在输入音频这个环节,我们既可以上传现成的,也可以自己录制,不过它对时长有限制,最好在 30 秒左右。

例如,我们上传了一段徐志胜说脱口秀的音频。

图片

来看一下效果:

李长庚最近有点烦。

他此刻骑在一只老鹤身上,在云雾里穿梭,想入了神。眼看快飞到启明殿,老鹤许是糊涂了,非但不减速,反而直直地撞了过去。李长庚回过神来,连连挥动拂尘,它才急急一拍双翅,歪歪斜斜地落在殿旁台阶上。

Fish Speech读小说,机器之能,23秒

音色和徐志胜不能说毫不相干,只能说一模一样,连口音都很像。

我们还让它与「开源语音 TTS 天花板级别」的 ChatTTS 、Seed-TTS 进行 PK。

中文文本 : 好呀,哈哈哈哈哈,喜欢笑的人运气都不会差哦,希望你每天笑口常开。

Fish Speech:

Fish Speech,机器之能,11秒

试听链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

ChatTTS:

ChatTTS,机器之能,6秒

试听链接:https://mp.weixin.qq.com/s/4T8b8RfK1X4tUVSeTI4gvw

由于字节的 Seed-TTS 还无法亲自体验,所以我们就用了它的官方示例。

Seed-TTS,机器之能,6秒

这三款 TTS 模型各有千秋,如果非要给它们的实力排个序,Seed-TTS 的断句、语音语调最自然,其次就是 ChatTTS,Fish Speech 虽然还有所欠缺,但它赢在可自定义音色上。

链接 ——

https://fish.audio/zh-CN/text-to-speech/

https://github.com/fishaudio/fish-speech

https://chattts.com/

https://bytedancespeech.github.io/seedtts_tech_report/

https://github.com/BytedanceSpeech/seed-tts-eval

相关资讯

AI降噪耳机,可在嘈杂人群中单独通话,看一眼锁定目标

千万种声音里,只听到你。最近几年来,很多人都在使用降噪耳机。这种设备能让人在吵闹的环境中享受安静,安心地听音乐或工作。通常,降噪耳机会通过内置的芯片算法对外界噪音信号进行计算,然后由喇叭发出反向声波进行抵消的方式创造安静环境。不过安静归安静,大多数情况下人们还是需要交流的,这就带来了不小的挑战。人们曾提出过各种解决方案,比如苹果最新款的 AirPods Pro 就会自动调整,如果耳机感知到人在说话就会停止降噪,但用户是无法控制听谁说话,或何时关掉降噪的。近日,华盛顿大学的一个团队开发了一种 AI 系统,让戴着耳机的

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。论文链接:: 代码实现: 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。在语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。在最近的一项研究中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。论文标题:BASE TTS: Lessons from building a billion-paramet