OpenAI首次官宣语音项目，配音演员警报拉响

作者：机器之心

2024-04-01 11:18

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输入以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输入一段原始

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。

今天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输入以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。

OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，今天是 Voice Engine 预览版的首次亮相。

下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输入一段原始音频： OpenAI首次官宣语音项目，配音演员警报拉响 Voice Engine 可以翻译成西班牙语：还能翻译成中文：以及日语：

Voice Engine 为有语言障碍的人合成相似的声音，使得用户在每种口语中保持声音一致：

输入参考音频： OpenAI首次官宣语音项目，配音演员警报拉响生成的音频（英语）：生成的音频（葡萄牙语）：

又比如，帮助患有突发性或退化性言语病症的患者说话。

原始声音： OpenAI首次官宣语音项目，配音演员警报拉响参考声音：生成的音频：

令人惊讶的是，Voice Engine 并未根据用户数据进行训练或微调，而是通过一个扩散过程和 transformer 结合的方式 —— 从而产生语音。

OpenAI 产品员 Jeff Harris 表示，他们采用少量音频样本和文本，生成与原始说话者相匹配的真实语音。请求完成后，所使用的音频将被删除。

其实，在语音生成领域，有很多我们熟悉的公司，从 ElevenLabs 到 Replica Studios 再到 Papercup ，亚马逊、谷歌和微软等大型科技公司也早已布局。

Harris 声称，采用 OpenAI 的方法，可以得到更好的语音质量。

在定价方面，尽管 OpenAI 在今天发布的营销材料中删除了 Voice Engine 的定价信息，但根据新闻网站 TechCrunch 消息，Voice Engine 的定价为每一百万字符 15 美元，这样的定价可以覆盖狄更斯的《雾都孤儿》，还略有余地，相当于 18 小时的音频，使得价格略低于每小时 1 美元。这个价格确实比 ElevenLabs 的收费便宜一些 —— 每月 100,000 字符收费 11 美元。不过，Voice Engine 目前不支持音调、音高或节奏的调整。

如果 OpenAI 的音频工具流行起来，那么，配音员们又将何去何从呢？要知道，ZipRecruiter 上的配音员工资从每小时 12 美元到 79 美元不等 —— 比 Voice Engine 贵很多，即使是低端的配音员，价格也不便宜。

最后又回到大家关心的安全与隐私，OpenAI 也早早考虑了这些问题，他们明确禁止未经授权来模仿任何个人或组织。与此同时，他们也开发了一系列安全措施，包括对 Voice Engine 生成的音频加水印，主动监控使用情况等。

参考链接：

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/

OpenAI首次官宣语音项目，配音演员警报拉响

相关资讯

15 秒语音片段就能合成某人声音，OpenAI 小规模开放 Voice Engine 模型

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的