试了试Meta的最新语音生成器，逼真得有点毛骨悚然

2023-12-12 07:08

机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？机器之能报道编辑：吴昕这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？试听地址： Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：试听地址： Audiobox Maker ，即使是小白用户也可以设计、生成不同人物（比如小红帽、大灰狼和外婆）的声音文件，同时添加不

机器之能报道

编辑：吴昕

这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？

机器之能报道

编辑：吴昕

这段《小红帽》故事中的所有音频都是 AI 生成的，你能听出来吗？

试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

作品出自一个非常酷的语音生成工具 Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。

有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：

试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

透过 Audiobox Maker ，即使是小白用户也可以设计、生成不同人物（比如小红帽、大灰狼和外婆）的声音文件，同时添加不同声效，通过拖曳、排列组合各种文件（就像搭乐高），自编自导一出故事。

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

我们使用 Audiobox Maker 制作关于五月天假唱对话的语音作品示例，生成了两个对话人物的音频，还有背景声效，通过拖曳不同模块进行编辑。

有学者说，2023 年是语音之年（ Year of Sound Waves ）。

确实，从电影、游戏、播客到有声读物，声音的魅力和地位可谓举重轻重。然而，制作高质量的音频却不是一件容易的事，特别是对无数业余爱好者来说。

为了改变现状，无论是 OpenAI、谷歌、微软、Meta 、亚马逊还是一众初创公司，都在语音生成方面投入了大量资金。

6 月，Meta 曾推出全新的语音生成 AI 模型—— VoiceBox，能从文本直接生成高质量语音，不需要任何语音样本作为训练数据。

由于当时对基于 AI 的深度伪造的担忧日益加剧，Meta 并未向公众开放 Voicebox。

意外的是，本周一，Meta 发布了一个新的交互式网站，支持大众免费体验「 Voicebox 的接班人」、最新的音频生成器 AudioBox。

Audiobox Maker 只是 AudioBox 的一个体验内容。

事实上，你可以将 Audiobox 看作一个汇聚了六个 AI 工具的「模型系列」，包括克隆声音、文本到声音、文本到音效（比如掌声、狗叫、汽车喇叭、雷声）、在指定地方添加音效或删除指定部分等。

机器之心也立刻体验了一把几个 AI 功能，非常有意思。不过，遗憾的是目前并不支持中文。

最让人印象深刻的工具—— 从文本直接生成各种音效。

虽然 Audiobox 建立在 Voicebox 框架之上，但它可以生成更多种类的声音，特别是不同环境的声效。

只需给模型一个文本提示即可，例如「一条流淌的河流和鸟儿的鸣叫」：

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

Meta 声称，与之前最先进的产品相比，Audiobox 将 FAD （Frechet Audio Distance 的缩写，FAD 值越小越好）降低了 50% ，在质量和保真度方面堪与真实音频相媲美。

换一个声效提示试试—— The sound of the brook accompanied the laughter of the young woman ，感觉后半段有点恐怖了：

试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

克隆自己的声音。

先录制一段自己的声音，想听听克隆声音朗读葡萄牙著名诗人卡蒙斯的诗的感觉，结果发现，目前并不支持葡萄牙语，只好更换为叶芝的诗歌 When you are old。

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

很快，就生成了两个音频供选择。说实话，本人很难分辨哪个更好，因为都很像。

Audiobox 使用了一种定制求解器，Meta 声称，这种求解器使生成过程比以前的模型快 25 倍以上，而不会损失性能。

试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

不想用克隆的声音？没问题，同样是朗读 When you are old ，你还可以直接通过文本提示，利用 AI 生成最适合的声音：输入提示，an old english man with a deep yet soft voice. He speaks with a slightly flat tone and his emotions are enthusiastic. The audio is high quality and it sounds like it was recorded by the sea。

oldman,试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

值得注意的是，用户还可以结合语音输入与文本样式提示，生成任何环境（例如，海边）或任何情绪（例如，悲伤而缓慢地说话）下的语音。

Meta 声称，Audiobox 是第一个支持该双输入（声音样本和文本描述提示）的语音生成大模型，最大限度提高了每个用例结果的可控性。

比如，我们想让朗读 When you are old 的声音变得更成熟一些，想象背景里还有淅淅沥沥的雨声和远处的雷声（是不是更有意境？）

我们用自己的声音录制了样本，再加上文本提示：

A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.

效果如下：

音频和文本提示双重控制生成,试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

Audiobox 还支持声音填充功能，根据文本描述将指定音频的一部分替换为新声音。

我们试着将刚才生成的一段女人笑声伴随河流声的部分音频（紫色部分）更换为一阵狗吠，还有沉重的脚步声。

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

效果还不错：

填充声效,试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

除了上述功能，用户还可擦除指定部分的音频。

必须说明的是，可能出于伦理安全方面的谨慎，系统约束过多。几乎每次输入都会碰到系统显示无法处理的情况，要修改甚至放弃原来的表述，才可能成功，因此很难顺利按照自己既定的脚本，完成音频生成。

与 Voicebox 相比，Audiobox 的生成质量更优。通过「结合使用语音输入和自然语言文本提示」生成语音和声音效果，最大限度提高结果的可控性。

另外，和 Voicebox 不同，所有这些音频生成、编辑等功能，都「建立在共享的自监督模型 Audiobox SSL 之上。」

换句话说，通过统一语音和音景的生成和编辑功能，Audiobox 进一步推进了音频的生成 AI 的进步。

在安全性上，使用 Audiobox 创建的任何音频都带有自动水印，可以准确地追溯到其来源。

该技术目前不能用于任何赚钱/商业目的，奇怪的是也不能被美国人口最多两个州的居民使用。但随着 AI 的快速发展，预计这种情况会改变，在不久的将来会有商业版本，即使不是来自 Meta，也会来自其他人。

如果你有兴趣，这里有传送门：https://audiobox.metademolab.com/

作品出自一个非常酷的语音生成工具 Audiobox Maker，你可以在 Meta 刚刚发布的一个新的交互式网站 audiobox.metademolab 上找到它。

有了它，仅用几分钟的时间，机器之心也随意生成了关于五月天假唱热搜的对话：

试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

我们使用 Audiobox Maker 制作关于五月天假唱对话的语音作品示例，生成了两个对话人物的音频，还有背景声效，通过拖曳不同模块进行编辑。

有学者说，2023 年是语音之年（ Year of Sound Waves ）。

为了改变现状，无论是 OpenAI、谷歌、微软、Meta 、亚马逊还是一众初创公司，都在语音生成方面投入了大量资金。

6 月，Meta 曾推出全新的语音生成 AI 模型—— VoiceBox，能从文本直接生成高质量语音，不需要任何语音样本作为训练数据。

由于当时对基于 AI 的深度伪造的担忧日益加剧，Meta 并未向公众开放 Voicebox。

意外的是，本周一，Meta 发布了一个新的交互式网站，支持大众免费体验「 Voicebox 的接班人」、最新的音频生成器 AudioBox。

Audiobox Maker 只是 AudioBox 的一个体验内容。

机器之心也立刻体验了一把几个 AI 功能，非常有意思。不过，遗憾的是目前并不支持中文。

最让人印象深刻的工具—— 从文本直接生成各种音效。

虽然 Audiobox 建立在 Voicebox 框架之上，但它可以生成更多种类的声音，特别是不同环境的声效。

只需给模型一个文本提示即可，例如「一条流淌的河流和鸟儿的鸣叫」：

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

换一个声效提示试试—— The sound of the brook accompanied the laughter of the young woman ，感觉后半段有点恐怖了：

试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

克隆自己的声音。先录制一段自己的声音，想听听克隆声音朗读葡萄牙著名诗人卡蒙斯的诗的感觉，结果发现，目前并不支持葡萄牙语，只好更换为叶芝的诗歌 When you are old。

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

很快，就生成了两个音频供选择。说实话，本人很难分辨哪个更好，因为都很像。

Audiobox 使用了一种定制求解器，Meta 声称，这种求解器使生成过程比以前的模型快 25 倍以上，而不会损失性能。

试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

oldman,试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

值得注意的是，用户还可以结合语音输入与文本样式提示，生成任何环境（例如，海边）或任何情绪（例如，悲伤而缓慢地说话）下的语音。

Meta 声称，Audiobox 是第一个支持该双输入（声音样本和文本描述提示）的语音生成大模型，最大限度提高了每个用例结果的可控性。

比如，我们想让朗读 When you are old 的声音变得更成熟一些，想象背景里还有淅淅沥沥的雨声和远处的雷声（是不是更有意境？）

我们用自己的声音录制了样本，再加上文本提示：

A middle-aged person speaking with a relaxed, friendly voice. Background includes rain sound and distant thunder.

效果如下：

音频和文本提示双重控制生成,试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

Audiobox 还支持声音填充功能，根据文本描述将指定音频的一部分替换为新声音。

我们试着将刚才生成的一段女人笑声伴随河流声的部分音频（紫色部分）更换为一阵狗吠，还有沉重的脚步声。

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

效果还不错：

填充声效,试听地址：https://mp.weixin.qq.com/s/qjsQ9J9s8Bdfdkp_67S4nw

除了上述功能，用户还可擦除指定部分的音频。

与 Voicebox 相比，Audiobox 的生成质量更优。通过「结合使用语音输入和自然语言文本提示」生成语音和声音效果，最大限度提高结果的可控性。

另外，和 Voicebox 不同，所有这些音频生成、编辑等功能，都「建立在共享的自监督模型 Audiobox SSL 之上。」

换句话说，通过统一语音和音景的生成和编辑功能，Audiobox 进一步推进了音频的生成 AI 的进步。

在安全性上，使用 Audiobox 创建的任何音频都带有自动水印，可以准确地追溯到其来源。

如果你有兴趣，这里有传送门：https://audiobox.metademolab.com/

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。▲ Q

8/13/2024 12:07:20 PM

沛霖（实习）

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

4/4/2024 10:23:56 AM

故渊

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 Hugging

6/6/2024 2:15:01 PM

故渊

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

试了试Meta的最新语音生成器，逼真得有点毛骨悚然

相关资讯

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等