「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

我们已经看到，AI 已经能够理解和生成文本、图像、视频，尽管各个产品目前能达到的准确性和审美水准还不相同。自带曲谱的音乐生成似乎是 AI 要征服的下一座山峰，而这场竞争正在白热化。近日，音乐生成领域再次迎来新玩家「Udio」。与前段时间大火的 Suno V3 相似，Udio 仅通过一些野生输出的文本提醒（包括用户提供的歌词），就可以创办高保真音乐音频。但它拥有比 Suno 更多的自定义能力，气势派头涵盖乡村音乐、理发店四重唱（Barbershop）、德国流行乐（German pop）、古典音乐、硬摇滚、嘻哈、演唱曲调等

我们已经看到，AI 已经能够理解和生成文本、图像、视频，尽管各个产品目前能达到的准确性和审美水准还不相同。

自带曲谱的音乐生成似乎是 AI 要征服的下一座山峰，而这场竞争正在白热化。

近日，音乐生成领域再次迎来新玩家「Udio」。

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

与前段时间大火的 Suno V3 相似，Udio 仅通过一些野生输出的文本提醒（包括用户提供的歌词），就可以创办高保真音乐音频。但它拥有比 Suno 更多的自定义能力，气势派头涵盖乡村音乐、理发店四重唱（Barbershop）、德国流行乐（German pop）、古典音乐、硬摇滚、嘻哈、演唱曲调等。

在测试阶段，用户可以免费使用，每人每月可以免费生成 1200 首音乐。

在官网中，我们已经看到了众多网友的创作成果：https://www.udio.com/

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

发布之后，由于大量用户涌入，官网一度崩溃：

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

从高亢的福音音乐到低沉的蓝调音乐，从梦幻般的流行音乐到柔美的说唱，Udio 应有尽有。

我们先来听几首「编辑精选」的曲目：

《Rising Sun Gospel》

标签：Female vocalist, R&b, Contemporary r&b, Passionate, Rhythmic, Uplifting, Lush, Introspective, Anthemic, Gospel

歌词：

There is a house way down in New Orleans

They call the Rising Sun

And it's been the ruin of many a poor boy

And God I know I'm one

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

《Crater Lullaby》

标签：Americana, Northern american music, Regional music, Folk, Country

歌词：

[Verse]

With each step on the moon dust

In a sea of tranquil gray

Solitude in one vast jump

Leaves the world so far away

[Chorus]

Like a lone space cowboy, yeah

Ridin' past the craters wide

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强 X 用户 @Min Choi 率先注册了 Udio 账号生成了多首音乐作品，并盛赞：「这就像是音乐界的 Sora。」

但也有人试完感觉：「好像不如 Suno？」

一部分网友怀疑，Udio 网站上展示的高质量音乐 demo 很可能是通过大量野生输出（如野生撰写的歌词），并从多次迭代的歌曲中挑选出最佳作曲部分而产生的。

Udio 官方表示：「v1 模型功能强大，但并不完美。我们正在快速迭代，并致力于更长的样本、更好的音质、支持更多语言和下一代可控性。敬请期待即将推出的更多功能和改进。」

官方教程

Udio 分两个阶段完成任务：首先利用类似于 ChatGPT 的大语言模型，根据所提供的提醒生成歌词。接下来，利用一种 Udio 没有透露的方法合成音乐，但这很可能是一种扩散模型，类似于 Stability AI 的 Stable Audio。此外，Udio 团队没有透露其模型或训练数据的具体细节（其中很可能充斥着受版权保护的材料）。

在「常见问题」中，Udio 列出了制作一首 1.5 分钟时长歌曲的使用指南：https://www.udio.com/faq

首先，在提醒框中输出您要创办的内容的描述，然后单击 “创办”。

例如，输出「一首关于纽约的爵士歌曲」：

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

如果不确定要输出什么内容，可以单击骰子图标，使用随机示例提醒填充提醒框。

提醒词一般由自由格式文本和标签的组合组成，例如「一首关于夏雨、爵士、醇厚、凉爽的歌曲」。其中「一首关于夏雨的歌」是自由形式，「爵士」、「醇厚」、「凉爽」是标签。请注意，提醒词的不同部分用逗号 (,)、分号 (;) 或句号 (.) 分隔，可以包含任意数量、任意顺序的自由形式部件和标签。

此外，提醒词中也可以引用艺术家气势派头，这样可以更轻松地描述您想要创办的音乐。例如可以将上面的提醒扩展为：「一首关于夏雨的歌曲，爵士乐，醇厚，凉爽，比莉・哈乐黛的气势派头。」不过，Udio 并不会使用艺术家的声音生成歌曲，气势派头只是用于参考，在幕后会被一组相关标签替换。

在文本输出框下方，系统也推荐一些标签，用户可以单击它们将其添加到提醒中：

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

如果你想使用自己的歌词，可以在提醒框的歌词部分选择自定义模式，然后将歌词放入文本输出中。Udio 能够识别的语言包括中文、日语、俄语、波兰语、德语、法语、意大利语。如果想为创作增添趣味，可以添加特殊描述符，例如 [Verse]、[Chorus]、[Hook]、[Guitar Solo] 或 [Drop]。

如下图所示：

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强

但是，无论文本提醒多么详细，都无法完全定义一首实际的音乐 —— 同一份文本描述会产生无数可能的音轨。这就是为什么为了接近脑海中的音乐创意，用户可能需要创办具有相同提醒（和其他设置）的多个剪辑。

根据给定的提醒，Udio 的野生智能模型会生成两个不同的歌曲片段供选择。然后，用户可以在 Udio 社区发布歌曲，下载音频或视频文件在其他平台上分享，或直接在社交媒体上分享，其他 Udio 用户也可以对现有歌曲进行混音或改编。Udio 的服务条款规定，公司对生成的音乐不享有任何权利，用户可以将其用于商业目的。

Udio 这家公司由一批 DeepMind 前员工在 2023 年创立，在伦敦和纽约均设有办公室。目前已经得到了 16z、will.i.am、Common、Tay Keith、Steve Stoute 的 UnitedMasters、Mike Krieger（Instagram 联合创始人兼首席技术官）、Kevin Wall、a16z 文化领导力基金和 Oriol Vinyals（Gemini colead）的支持。

Udio 联合创始人、CEO David (Fengning) Ding 曾在 2018 年到 2023 年 10 月期间在 DeepMind 任职：

「音乐界Sora」Udio来了：前DeepMind员工创业，比Suno可定制性更强