已预览一年,OpenAI 语音克隆服务 Voice Engine 仍未正式推出

去年三月底,OpenAI 宣布了一项名为 Voice Engine(声音引擎)的人工智能服务的“小规模预览”,声称该技术能够在仅需 15 秒语音的情况下克隆一个人的声音。然而,近一年过去,这项工具仍未正式推出,OpenAI 也未透露其是否会全面上线,以及何时上线。

去年三月底,OpenAI 宣布了一项名为 Voice Engine(声音引擎)的人工智能服务的“小规模预览”,声称该技术能够在仅需 15 秒语音的情况下克隆一个人的声音。然而,近一年过去,这项工具仍未正式推出,OpenAI 也未透露其是否会全面上线,以及何时上线。

已预览一年,OpenAI 语音克隆服务 Voice Engine 仍未正式推出

OpenAI 对于 Voice Engine 的谨慎态度,可能源于对技术被滥用的担忧,也可能是为了避免引发监管审查。该公司此前曾被指责过于注重“亮眼产品”,而忽视安全性,并且急于赶在竞争对手之前发布产品。

OpenAI 发言人在接受 TechCrunch 采访时表示,公司仍在与有限的“可信合作伙伴”一起测试 Voice Engine。该发言人称:“我们正在从合作伙伴对技术的使用中学习,以提升模型的实用性和安全性。我们很高兴看到它被应用于多种场景,包括语音治疗、语言学习、客户支持、游戏角色以及 AI 虚拟形象等。”

据AI在线了解,Voice Engine 是 OpenAI 文本转语音 API 和 ChatGPT 语音模式背后的技术,能够生成与原始说话者极为相似的自然语音。该工具将书面文字转换为语音,同时在内容方面设置了某些限制。然而从一开始,Voice Engine 的发布就遭遇了延迟和发布时间窗口的不断变化。

根据 OpenAI 在 2024 年 6 月的一篇博客文章,Voice Engine 模型通过学习预测说话者在给定文本转录中可能发出的声音,考虑不同的声音、口音和说话风格,从而生成文本的语音版本,以及反映不同类型说话者朗读文本的“语音表达”。

最初,OpenAI 计划在 2024 年 3 月 7 日将 Voice Engine(当时名为 Custom Voices)引入其 API,并计划让最多 100 名“可信开发者”提前使用,优先考虑那些开发具有“社会价值”或展示“创新和负责任”技术应用的应用程序的开发者。OpenAI 还为该服务设定了价格:“标准”语音每百万字符收费 15 美元,“高清”语音每百万字符收费 30 美元。然而,在最后一刻,公司推迟了发布。几周后,OpenAI 在没有提供注册选项的情况下发布了 Voice Engine,仅允许 2023 年底开始合作的约 10 名开发者使用。

2024 年 3 月,OpenAI 在 Voice Engine 的发布博客中表示:“我们希望就合成语音的负责任部署以及社会如何适应这些新能力展开对话。基于这些对话和小规模测试的结果,我们将就是否以及如何大规模部署这项技术做出更明智的决策。”

据 OpenAI 介绍,Voice Engine 自 2022 年起就开始研发。该公司声称在 2023 年夏天向全球最高层级的政策制定者展示了该工具的潜力和风险。目前,包括 Livox 在内的几家合作伙伴已经可以使用 Voice Engine。Livox 是一家致力于为残疾人开发更自然沟通设备的初创公司。其首席执行官卡洛斯・佩雷拉(Carlos Pereira)告诉 TechCrunch,尽管由于 Voice Engine 的网络要求(许多 Livox 的客户没有互联网接入),他们无法将该技术整合到产品中,但他认为这项技术“令人印象深刻”。

佩雷拉通过电子邮件向 TechCrunch 表示:“语音的质量以及语音能够以不同语言说话的可能性是独一无二的 —— 尤其是对于我们的客户,即残疾人。这是我见过的最令人印象深刻且易于使用的创建语音的工具。我们希望 OpenAI 尽快开发出离线版本。”他补充说,他尚未收到来自 OpenAI 关于 Voice Engine 可能发布的任何指导,也没有看到该公司计划开始收费的迹象。目前,Livox 的使用尚未产生任何费用。

在 2024 年 6 月的博客文章中,OpenAI 暗示延迟发布 Voice Engine 的原因之一是担心该技术可能在去年美国选举周期中被滥用。基于与利益相关者的讨论,Voice Engine 采取了多项安全措施,包括为生成音频添加水印以追溯其来源。

根据 OpenAI 的说法,开发者在使用 Voice Engine 之前必须获得原始说话者的“明确同意”,并且必须向其受众“明确披露”语音是由 AI 生成的。然而,该公司尚未说明如何执行这些政策。即使对于拥有 OpenAI 资源的公司来说,大规模执行这些政策也可能极具挑战性。

在博客文章中,OpenAI 还暗示希望开发一种“语音认证体验”以验证说话者身份,并建立一个“禁止清单”,防止创建与知名人士声音过于相似的语音。这两个项目在技术上都极具雄心,如果处理不当,将对一家常被指责忽视安全举措的公司造成负面影响。

随着 AI 语音克隆技术的快速发展,有效的过滤和身份验证正迅速成为负责任发布语音克隆技术的基本要求。据相关报道,AI 语音克隆是 2024 年增长最快的第三大诈骗手段,导致了欺诈行为的增加和银行安全检查被绕过,而隐私和版权法律则难以跟上其发展速度。恶意行为者利用语音克隆技术制作名人和政客的煽动性深度伪造视频,并在社交媒体上迅速传播。

OpenAI 可能在下周推出 Voice Engine,也可能永远不会推出。该公司多次表示,正在考虑将服务保持在较小范围内。但有一点是明确的:无论是出于形象考虑还是安全原因,Voice Engine 的有限预览已成为 OpenAI 历史上最长的一次。

相关资讯

15 秒语音片段就能合成某人声音,OpenAI 小规模开放 Voice Engine 模型

感谢OpenAI 公司近日发布公告,有限开放 Voice Engine 的访问权限,该模型可以根据某人的 15 秒语音片段创建合成语音。OpenAI 在新闻稿中表示:“通过开放小规模部署,有助于我们按照现有方法、保障措施等推进产品落地,并在不断磨合、探索过程中思考,如何将 Voice Engine 用于各行各业”。OpenAI 公司表示,目前已经向教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespa

OpenAI首次官宣语音项目,配音演员警报拉响

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天,OpenAI 在语音领域又带给我们一点点震撼,通过文本输入以及一段 15 秒的音频示例,可以生成既自然又与原声极为接近的语音。值得注意的是,即使是小模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine,首次开发时间是 2022 年末,今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例,例如可以帮助用户翻译视频和播客等内容,输入一段原始

AI语音独角兽ElevenLabs完成2.5亿美元C轮融资,估值突破30亿

人工智能语音公司ElevenLabs再次引发关注,该公司刚刚完成了一轮高达2.5亿美元的C轮融资,估值在30亿至33亿美元之间。 本次融资由ICONIQ Growth领投,显示出市场对AI语音技术的强烈信心。 仅在一年之前,ElevenLabs刚刚完成了一笔8000万美元的B轮融资,当时的估值仅为现在的三分之一,可见该公司发展之迅猛。