Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以鉴于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型鉴于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 Hugging
Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以鉴于用户输入的提示词,生成高质量音频样本。
Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型鉴于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。
Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。
Stability AI 公司表示:“虽然它可以生成简短的音乐片断,但并不适合残破的歌曲、旋律或人声”。
Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片断和音效,而后者能够生成最长 3 分钟的残破音频。
相关阅读:
《Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品》
《Stability AI 推出 Stable Audio,鉴于文本生成最长 90 秒音频》