OpenAI首次官宣语音项目，配音演员警报拉响

文本输出和一个 15 秒的音频样本就能生成与原始谈话者非常类似的自然声响。明天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输出以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声响。OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，明天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输出一段原始

文本输出和一个 15 秒的音频样本就能生成与原始谈话者非常类似的自然声响。

明天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输出以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声响。

OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，明天是 Voice Engine 预览版的首次亮相。

OpenAI首次官宣语音项目，配音演员警报拉响

下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输出一段原始音频： OpenAI首次官宣语音项目，配音演员警报拉响 Voice Engine 可以翻译成西班牙语：还能翻译成中文：以及日语：

Voice Engine 为有语言障碍的人合成类似的声响，使得用户在每种口语中保持声响一致：

输出参照音频： OpenAI首次官宣语音项目，配音演员警报拉响生成的音频（英语）：生成的音频（葡萄牙语）：

又比如，帮助患有突发性或退化性言语病症的患者谈话。

原始声响： OpenAI首次官宣语音项目，配音演员警报拉响参照声响：生成的音频：

令人惊讶的是，Voice Engine 并未根据用户数据进行训练或微调，而是通过一个扩散过程和 transformer 结合的方式 —— 从而产生语音。

OpenAI 产品员 Jeff Harris 表示，他们采用少量音频样本和文本，生成与原始谈话者相匹配的真实语音。请求完成后，所使用的音频将被简略。

其实，在语音生成领域，有很多我们熟悉的公司，从 ElevenLabs 到 Replica Studios 再到 Papercup ，亚马逊、谷歌和微软等大型科技公司也早已布局。

Harris 声称，采用 OpenAI 的方法，可以得到更好的语音质量。

在订价方面，尽管 OpenAI 在明天发布的营销材料中简略了 Voice Engine 的订价信息，但根据新闻网站 TechCrunch 消息，Voice Engine 的订价为每一百万字符 15 美圆，这样的订价可以覆盖狄更斯的《雾都孤儿》，还略有余地，相当于 18 小时的音频，使得代价略低于每小时 1 美圆。这个代价确实比 ElevenLabs 的免费贵重一些 —— 每月 100,000 字符免费 11 美圆。不过，Voice Engine 目前不支持音调、音高或节奏的调整。

如果 OpenAI 的音频工具流行起来，那么，配音员们又将何去何从呢？要知道，ZipRecruiter 上的配音员工资从每小时 12 美圆到 79 美圆不等 —— 比 Voice Engine 贵很多，即使是低端的配音员，代价也不贵重。

最后又回到大家关心的安全与隐私，OpenAI 也早早考虑了这些问题，他们明确禁止未经授权来模仿任何个人或组织。与此同时，他们也开发了一系列安全措施，包括对 Voice Engine 生成的音频加水印，主动监控使用情况等。

参照链接：

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

https://techcrunch.com/2024/03/29/openai-custom-voice-engine-preview/

OpenAI首次官宣语音项目，配音演员警报拉响

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

微软、OpenAI又搞大动作：斥资1000亿美元开发AI超算「星际之门」

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

微软、OpenAI又搞大动作：斥资1000亿美元开发AI超算「星际之门」

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

请输入验证码

....支付确认中....