15 秒语音片段就能合成某人声音，OpenAI 小规模开放 Voice Engine 模型

2024-03-30 11:50

感谢OpenAI 公司近日发布公告，有限开放 Voice Engine 的访问权限，该模型可以根据某人的 15 秒语音片段创建合成语音。OpenAI 在新闻稿中表示：“通过开放小规模部署，有助于我们按照现有方法、保障措施等推进产品落地，并在不断磨合、探索过程中思考，如何将 Voice Engine 用于各行各业”。OpenAI 公司表示，目前已经向教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespa

感谢OpenAI 公司近日发布公告，有限开放 Voice Engine 的访问权限，该模型可以根据某人的 15 秒语音片段创建合成语音。

OpenAI 在新闻稿中表示：“通过开放小规模部署，有助于我们按照现有方法、保障措施等推进产品落地，并在不断磨合、探索过程中思考，如何将 Voice Engine 用于各行各业”。

15 秒语音片段就能合成某人声音，OpenAI 小规模开放 Voice Engine 模型

OpenAI 公司表示，目前已经向教育技术公司 Age of Learning、视觉故事平台 HeyGen、前线健康软件制造商 Dimagi、人工智能通信应用开发商 Livox 和健康系统 Lifespan 等公司开放访问。

在 OpenAI 发布的这些样本中，你可以听到 Age of Learning 利用该技术生成预制 voice-over 内容，以及向学生朗读由 GPT-4 撰写的“实时、个性化回复”。

IT之家附上参考地址

Navigating the Challenges and Opportunities of Synthetic Voices

OpenAI首次官宣语音项目，配音演员警报拉响

文本输入和一个 15 秒的音频样本就能生成与原始说话者非常相似的自然声音。今天，OpenAI 在语音领域又带给我们一点点震撼，通过文本输入以及一段 15 秒的音频示例，可以生成既自然又与原声极为接近的语音。值得注意的是，即使是小模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。OpenAI 将这个语音引擎命名为 Voice Engine，首次开发时间是 2022 年末，今天是 Voice Engine 预览版的首次亮相。下面为该语音引擎的一些早期示例，例如可以帮助用户翻译视频和播客等内容，输入一段原始

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

智谱今天宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示，其能够理解情感，有情绪表达、情感共鸣，可自助调节语速，支持多语言和方言，并且延时更低、可随时打断，用户即日起可在“智谱清言”App 上体验。据介绍，GLM-4-Voice 具备如下特点：情感表达和情感共鸣：声音有不同的情感和细腻的变化，如高兴、悲伤、生气、害怕等。

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的

今年 5 月，OpenAI 首次展示了 GPT-4o 的语音功能，无论是对话的响应速度还是与真人声音的相似度，都颇为惊艳。特别是它允许用户随时打断，充分感知到用户的情绪并给予回应。大家突然发现，原来 AI 语音通话还能这么玩？

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架阿里云与黑芝麻智能完成大模型车载芯片级适配类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元清华大学推 AutoDroid-V2：AI 离线在线协同，优化移动端自动化 GUI 控制斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手 AI模拟细胞，走向全新虚拟生命，斯坦福团队呼吁是时候走出全新的一步了

标签云

15 秒语音片段就能合成某人声音，OpenAI 小规模开放 Voice Engine 模型

相关资讯

OpenAI首次官宣语音项目，配音演员警报拉响

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

刚刚，我们感受了一波最「像人」的国产AI，模型还是开源的