播客平台 Podcastle 推出AI文本转语音模型:提供 450 种语音

在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。 这个新模型不仅为用户提供了超过450种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。 Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。

在快速发展的播客领域,Podcastle 平台近日宣布推出其全新的 AI 文本转语音模型 Asyncflow v1.0。这个新模型不仅为用户提供了超过450种不同的 AI 语音,还向开发者开放了 API 接口,以便于他们将这一文本转语音功能直接集成到自己的应用程序中。

QQ_1741058363798.png

Podcastle 的创始人 Arto Yeritsyan 表示,公司一直希望能开发一个文本转语音模型,但由于过去高昂的训练成本和数据需求,这一愿望一直未能实现。然而,随着近年来大型语言模型技术的进步,Podcastle 终于在去年取得了突破,能够在不需要大量数据的情况下,构建出高质量的语音模型。Yeritsyan 补充道,Podcastle 的研发得到了去年1350万美元的 A 轮融资的支持,这为其技术创新提供了重要保障。

在价格方面,Podcastle 的文本转语音服务定价为每500分钟约40美元,相比之下,竞争对手 ElevenLabs 则收取99美元。除了文本转语音模型外,Podcastle 的语音克隆功能也得到了升级,训练过程由之前的需朗读70句不同句子,缩短至现在仅需几秒的录音。新过程利用了 Podcastle 去年推出的 Magic Dust AI 技术,显著提高了音频录制质量。

在实际测试中,尽管新生成的语音听起来稍显机器人,但仍能较好地模仿说话者的语调。Podcastle 表示,随着时间推移,该功能将不断改进,用户也可以通过不同的录音样本训练出不同的声音效果。

Yeritsyan 指出,除了成本优势外,将音频、视频、播客和 AI 驱动的叙述工具整合到一个重新设计的网站中,也将使 Podcastle 在竞争中脱颖而出。他提到,虽然大多数用户仍主要使用 Podcastle 进行音频内容创作,但视频制作的需求也在逐渐上升。

入口:https://podcastle.ai/ai-voices

划重点:  

🌟 Podcastle 推出 Asyncflow v1.0模型,提供超过450种 AI 语音。  

💰 该平台每500分钟文本转语音的收费为40美元,低于竞争对手的定价。  

🎤 语音克隆功能经过升级,训练时间大幅缩短,用户体验不断优化。

相关资讯

微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用,Azure AI 语音服务最新推出了文本到语音虚拟人功能,可以将简单的文本转换为人类自然说话视频。今天,微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。AI在线附示例如下:Text to Speech Avatar 具有以下功能:将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频,该视频具有自

Sesame 发布 CSM 语音模型:跨越“恐怖谷”,逼真程度惊艳全球

Sesame 公司最新推出的语音合成模型“Conversational Speech Model”(简称 CSM)近日在 X 平台上引发热议,被誉为“像真人说话一样的语音模型”。 这款模型以其惊艳的自然度和情感表达能力,不仅让用户“已经无法分辨”其与人类的区别,还宣称成功跨越了语音领域的“恐怖谷效应”。 随着演示视频和用户反馈的传播,CSM 正迅速成为 AI 语音技术的新标杆。

图文实录|澜舟科技合伙人李京梅:基于预训练模型的 AIGC 技术与应用实践

在 AIGC 领域,人类应该持续提升创造力,不要停止,不要因为有了 AI 就不去创造了,而 AI 也将通过提升整个产业效率的方式来帮助人类更好地创造价值。