OpenAI首次官宣语音项目,配音演员警报拉响

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天,OpenAI 在语音领域又带给我们一点点震撼,通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。值得注意的是,即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine,首次开发时间是 2022 年末,今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例,例如可以帮助用户翻译视频和播客等内容,输入一段原始

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。

今天,OpenAI 在语音领域又带给我们一点点震撼,通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。值得注意的是,即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。

OpenAI 将这个语音引擎命名为 Voice Engine,首次开发时间是 2022 年末,今天是 Voice Engine 预览版的首次亮相。

图片

下面为该语音引擎的一些早期示例,例如可以帮助用户翻译视频和播客等内容,输入一段原始音频:OpenAI首次官宣语音项目,配音演员警报拉响Voice Engine 可以翻译成西班牙语: OpenAI首次官宣语音项目,配音演员警报拉响还能翻译成中文: OpenAI首次官宣语音项目,配音演员警报拉响以及日语: OpenAI首次官宣语音项目,配音演员警报拉响

Voice Engine 为有语言障碍的人合成相似的声音,使得用户在每种口语中保持声音一致:

输入参考音频:OpenAI首次官宣语音项目,配音演员警报拉响生成的音频(英语): OpenAI首次官宣语音项目,配音演员警报拉响生成的音频(葡萄牙语): OpenAI首次官宣语音项目,配音演员警报拉响

又比如,帮助患有突发性或退化性言语病症的患者说话。

原始声音:OpenAI首次官宣语音项目,配音演员警报拉响参考声音: OpenAI首次官宣语音项目,配音演员警报拉响生成的音频: OpenAI首次官宣语音项目,配音演员警报拉响

令人惊讶的是,Voice Engine 并未根据用户数据进行训练或微调,而是通过一个扩散过程和 transformer 结合的方式 —— 从而产生语音。

OpenAI 产品员 Jeff Harris 表示,他们采用少量音频样本和文本,生成与原始说话者相匹配的真实语音。请求完成后,所使用的音频将被删除。

其实,在语音生成领域,有很多我们熟悉的公司,从 ElevenLabs 到 Replica Studios 再到 Papercup ,亚马逊、谷歌和微软等大型科技公司也早已布局。

Harris 声称,采用 OpenAI 的方法,可以得到更好的语音质量。

在定价方面,尽管 OpenAI 在今天发布的营销材料中删除了 Voice Engine 的定价信息,但根据新闻网站 TechCrunch 消息,Voice Engine 的定价为每一百万字符 15 美元,这样的定价可以覆盖狄更斯的《雾都孤儿》,还略有余地,相当于 18 小时的音频,使得价格略低于每小时 1 美元。这个价格确实比 ElevenLabs 的收费便宜一些 —— 每月 100,000 字符收费 11 美元。不过,Voice Engine 目前不支持音调、音高或节奏的调整。

如果 OpenAI 的音频工具流行起来,那么,配音员们又将何去何从呢?要知道,ZipRecruiter 上的配音员工资从每小时 12 美元到 79 美元不等 —— 比 Voice Engine 贵很多,即使是低端的配音员,价格也不便宜。

最后又回到大家关心的安全与隐私,OpenAI 也早早考虑了这些问题,他们明确禁止未经授权来模仿任何个人或组织。与此同时,他们也开发了一系列安全措施,包括对 Voice Engine 生成的音频加水印,主动监控使用情况等。

参考链接:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/

相关资讯

15 秒语音片段就能合成某人声音,OpenAI 小规模开放 Voice Engine 模型

感谢OpenAI 公司近日发布公告,有限开放 Voice Engine 的访问权限,该模型可以根据某人的 15 秒语音片段创建合成语音。OpenAI 在新闻稿中表示:“通过开放小规模部署,有助于我们按照现有方法、保障措施等推进产品落地,并在不断磨合、探索过程中思考,如何将 Voice Engine 用于各行各业”。OpenAI 公司表示,目前已经向教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespa

智谱清言上线情感语音模型 GLM-4-Voice:可理解情感,有情绪表达和共鸣

智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。 官方表示,其能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断,用户即日起可在“智谱清言”App 上体验。 据介绍,GLM-4-Voice 具备如下特点:情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。

刚刚,我们感受了一波最「像人」的国产AI,模型还是开源的

今年 5 月,OpenAI 首次展示了 GPT-4o 的语音功能,无论是对话的响应速度还是与真人声音的相似度,都颇为惊艳。 特别是它允许用户随时打断,充分感知到用户的情绪并给予回应。 大家突然发现,原来 AI 语音通话还能这么玩?