Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以鉴于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型鉴于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 Hugging

Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以鉴于用户输入的提示词,生成高质量音频样本。

Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型鉴于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示:“虽然它可以生成简短的音乐片断,但并不适合残破的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片断和音效,而后者能够生成最长 3 分钟的残破音频。

相关阅读:

《Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品》

《Stability AI 推出 Stable Audio,鉴于文本生成最长 90 秒音频》

给TA打赏
共{{data.count}}人
人已打赏
AI

腾讯混元文生图开源大模型加速库发布:生图时间缩短 75%

2024-6-6 13:56:48

AI

OPPO 今年计划让约 5 万万用户的手机搭载生成式 AI,国外机型将接入google Gemini 大模型

2024-6-6 15:44:10

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索