Speaking AI!效果真实的文本转语音神器,可以一键克隆自己的声音

大家好,这里是和你们一起探索 AI 的花生~ 之前推荐过 AI 无痕翻译视频的相关内容,它的实现条件包括文本内容的准确翻译、人物语音克隆及嘴型匹配。今天我们就来看一款效果非常不错的 AI 语音克隆工具 Speaking AI,它可以将文本转为如真人说话一般自然的语音,还支持用户免费克隆自己的声音。 上期回顾:一、Speaking AI 介绍 网站直达: Speaking AI 是一个初创公司,创始人为 Harry Zheng,其团队成员也都是中国人。公司创立的初衷是坚信对话式生成语音代表着人类与人工智能之间的未来

Speaking AI!效果真实的文本转语音神器,可以一键克隆自己的声音

大家好,这里是和你们一起探索 AI 的花生~

之前推荐过 AI 无痕翻译视频的相关内容,它的实现条件包括文本内容的准确翻译、人物语音克隆及嘴型匹配。今天我们就来看一款效果非常不错的 AI 语音克隆工具 Speaking AI,它可以将文本转为如真人说话一般自然的语音,还支持用户免费克隆自己的声音。

上期回顾:

一、Speaking AI 介绍

网站直达: https://speaking.ai/

Speaking AI 是一个初创公司,创始人为 Harry Zheng,其团队成员也都是中国人。公司创立的初衷是坚信对话式生成语音代表着人类与人工智能之间的未来接口,他们希望让语音克隆听起来更加自然,为人与人工智能之间的互动方式带来根本性改变。

Speaking AI 目前有两项主要功能:文本转语音和语音克隆,其中语音克隆功能尤其出色,能做到接近真人说话的效果。 先来看一下其官网上的语音克隆案例:

视频中第一段播放的是 Taylor Swift 的原声,第二段播放的是克隆出来的语音,可以发现二者在音色上几乎没有差别,也就是说 Speaking AI 可以完美还原一个人原本的声音。更厉害的是,在克隆语音中我们能听到真人说话时常见的“呃”“啊”这样的语气词和一些停顿,这些内容在文本中并没有体现,是 Speaking AI 在合成过程中自动加入的,这能让语音克隆的效果更真实自然。

Speaking AI 目前支持中文和英文的文本转语音,另有 5 款名人语音模板供用户选择。此功能目前是免费的,使用人数较多时需要排队。下面是我用成龙的声音合成的中文内容,效果很不错,我自己听着都觉得好神奇。

Speaking AI 支持用户克隆自己和他人的声音,你可以选择在线录制 10 秒的音频,或者上传本地音频文件,然后进行实时转换,操作起来非常方便。录制时说话的情绪和语调会影响最终的合成效果,Speaking AI 的模型也会根据文本内容自主选择合适的情感基调。

注意:上传他人的声音时需要获得对方的同意,并且不能将合成的语音用于任何非法、欺诈和有害目的。

Speaking AI!效果真实的文本转语音神器,可以一键克隆自己的声音

据创始人介绍,目前 Speaking AI 还处于 V1 模型,算是一个试玩 Demo,性能比较有限,这种情况会在未来几周内得到改善。官方已经在研发 V2 模型,它将支持更多不同的语言,语音克隆速度会更快,质量也会更高。

二、发展迅速的 AI 语音技术

除了今天推荐的 Speaking AI,目前市面还有很多成熟的 AI 语音生成应用和开源工具。

比如一直比较受关注的 Elevenlabs,几分钟就能克隆用户个人声音并合成新的语音,支持将文本转换为中文等 28 种语言,并能以不同的情绪演绎,目前上线了视频自动翻译配音功能。Elevenlabs 在翻译、电影游戏/配音、有声书制作、聊天机器人对话上有广泛应用,它的文本转语音功能可以免费使用,进入官网后注册账号就能体验。

网站直达: https://elevenlabs.io/

Speaking AI!效果真实的文本转语音神器,可以一键克隆自己的声音

国内的网易有道技术团队则在 11 月份开源了自研的语音合成(TTS)引擎「易魔声」,目前支持中英文双语,包含 2000 多种不同的音色。易魔声也支持情感合成功能,可以合成如快乐、兴奋、悲伤、愤怒等不同感觉的语音。其 Github 主页中有官方提供的 Web 界面及批量生成结果的脚本接口,安装后就可以免费使用。

Github 主页: https://github.com/netease-youdao/EmotiVoice

我最近还在网上看到一个新的 AI 音乐合成工具 Musicfy AI,它可以将人声哼唱转化为不同类型的乐器伴奏,非常有意思。这可能会改变传统的编曲工作流,人们可以轻松地用声音进行音乐创作,对音乐感兴趣的小伙伴可以尝试一下。

网页直达: https://musicfy.lol/

当视频在手机上无法加载,可前往PC查看。

相关资讯

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资,估值突破30亿

人工智能语音公司ElevenLabs再次引发关注,该公司刚刚完成了一轮高达2.5亿美元的C轮融资,估值在30亿至33亿美元之间。 本次融资由ICONIQ Growth领投,显示出市场对AI语音技术的强烈信心。 仅在一年之前,ElevenLabs刚刚完成了一笔8000万美元的B轮融资,当时的估值仅为现在的三分之一,可见该公司发展之迅猛。

HYBE旗下AI 声音工具Supertone Play上线:10秒搞定声音克隆

近日,HYBE 旗下的人工智能语音公司 Supertone 宣布推出了一款名为 “Supertone Play” 的文本转语音工具,旨在生成高质量、富有表现力的音频内容。 这款新工具目前支持英语、韩语和日语,预计在今年内将扩展至西班牙语和中文。 Supertone Play 提供了150种声音角色,适用于多种内容创作需求,包括自然对话、专业播报新闻和有声读物,以及潮流驱动的搞笑声音。

已预览一年,OpenAI 语音克隆服务 Voice Engine 仍未正式推出

去年三月底,OpenAI 宣布了一项名为 Voice Engine(声音引擎)的人工智能服务的“小规模预览”,声称该技术能够在仅需 15 秒语音的情况下克隆一个人的声音。然而,近一年过去,这项工具仍未正式推出,OpenAI 也未透露其是否会全面上线,以及何时上线。