Stability AI与 Arm 合作 推出离线生成音频技术

Stability AI因其Stable Diffusion文本生成图像模型而闻名。 最近,该公司与全球半导体巨头 Arm 展开合作,致力于将生成音频人工智能能力引入移动设备。 这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行,用户可以在设备上快速生成音效、音频样本和制作元素,且无需互联网连接。

Stability AI因其Stable Diffusion文本生成图像模型而闻名。最近,该公司与全球半导体巨头 Arm 展开合作,致力于将生成音频人工智能能力引入移动设备。这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行,用户可以在设备上快速生成音效、音频样本和制作元素,且无需互联网连接。

QQ_1741076694844.png

Stability AI表示,随着生成性人工智能在企业和专业创作者中的应用越来越广泛,确保我们的模型和工作流程在各个创造领域都能便捷使用显得尤为重要。这不仅能够提升创作效率,也有助于将这些技术无缝整合进视觉媒体制作流程中。

面对不断增长的需求,该公司旨在提高其模型在边缘设备上的运行效率。在优化Stable Audio Open模型以适应移动设备的过程中,初始测试在一台 Arm CPU 设备上生成音频的时间达到了240秒。通过对模型的蒸馏处理,并利用 Arm 的软件栈,特别是通过 XNNPack 的 KleidiAI 中的 int8矩阵乘法内核,该公司成功将生成一个11秒音频片段的时间缩短至8秒,提升了30倍的响应速度。

需要注意的是,用户需要一部兼容的移动设备才能体验这一功能。考虑到如今大多数智能手机都配备 Arm 架构的 CPU,因此这一技术应对各类用户而言都变得更加可及。未来,Stability AI还计划将其在图像、视频和3D 领域的所有模型都带到边缘设备,旨在彻底改变移动设备上的视觉媒体创作方式。

划重点:

🌟 Stability AI能与 Arm 合作,推出可在移动设备上离线生成音频的技术。  

⚡ 通过模型蒸馏和软件优化,音频生成时间从240秒缩短至8秒,效率提升30倍。  

📱 这一技术可在大多数搭载 Arm CPU 的智能手机上使用,未来将扩展到更多媒体创作领域。  

相关资讯

ARM最新回应:新架构Armv9不受美国出口管理条例约束,华为可获授权

对于Armv9架构,ARM首席执行官西蒙·塞加斯表示,「v9架构将提升安全性和信任度,并为未来十年的计算机技术奠定基础。」与此同时,v9架构不受美国出口管理条例约束也为华为带来了利好消息。

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品

Stability AI 近日发布新闻稿,宣布推出 Stable Audio2.0,可以基于用户输入的提示词,生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。IT之家附上演示视频如下: 例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段

Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 Hugging