15 秒语音片段就能合成某人声音,OpenAI 小规模开放 Voice Engine 模型

感谢OpenAI 公司近日发布公告,有限开放 Voice Engine 的访问权限,该模型可以根据某人的 15 秒语音片段创建合成语音。OpenAI 在新闻稿中表示:“通过开放小规模部署,有助于我们按照现有方法、保障措施等推进产品落地,并在不断磨合、探索过程中思考,如何将 Voice Engine 用于各行各业”。OpenAI 公司表示,目前已经向教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespa
感谢OpenAI 公司近日发布公告,有限开放 Voice Engine 的访问权限,该模型可以根据某人的 15 秒语音片段创建合成语音。

15 秒语音片段就能合成某人声音,OpenAI 小规模开放 Voice Engine 模型

OpenAI 在新闻稿中表示:“通过开放小规模部署,有助于我们按照现有方法、保障措施等推进产品落地,并在不断磨合、探索过程中思考,如何将 Voice Engine 用于各行各业”。

15 秒语音片段就能合成某人声音,OpenAI 小规模开放 Voice Engine 模型

OpenAI 公司表示,目前已经向教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan 等公司开放访问。

在 OpenAI 发布的这些样本中,你可以听到 Age of Learning 利用该技术生成预制 voice-over 内容,以及向学生朗读由 GPT-4 撰写的“实时、个性化回复”。

IT之家附上参考地址

Navigating the Challenges and Opportunities of Synthetic Voices

相关资讯

OpenAI首次官宣语音项目,配音演员警报拉响

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天,OpenAI 在语音领域又带给我们一点点震撼,通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。值得注意的是,即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine,首次开发时间是 2022 年末,今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例,例如可以帮助用户翻译视频和播客等内容,输入一段原始

智谱清言上线情感语音模型 GLM-4-Voice:可理解情感,有情绪表达和共鸣

智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。 官方表示,其能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断,用户即日起可在“智谱清言”App 上体验。 据介绍,GLM-4-Voice 具备如下特点:情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,无论是对话的响应速度还是与真人声音的相似度,都颇为惊艳。 特别是它允许用户随时打断,充分感知到用户的情绪并给予回应。 大家突然发现,原来 AI 语音通话还能这么玩?