Stability AI与 Arm 合作推出离线生成音频技术

2025-03-04 04:25

Stability AI因其Stable Diffusion文本生成图像模型而闻名。最近，该公司与全球半导体巨头 Arm 展开合作，致力于将生成音频人工智能能力引入移动设备。这一合作使得Stable Audio Open模型能够完全在 Arm CPU 上运行，用户可以在设备上快速生成音效、音频样本和制作元素，且无需互联网连接。

Stability AI表示，随着生成性人工智能在企业和专业创作者中的应用越来越广泛，确保我们的模型和工作流程在各个创造领域都能便捷使用显得尤为重要。这不仅能够提升创作效率，也有助于将这些技术无缝整合进视觉媒体制作流程中。

面对不断增长的需求，该公司旨在提高其模型在边缘设备上的运行效率。在优化Stable Audio Open模型以适应移动设备的过程中，初始测试在一台 Arm CPU 设备上生成音频的时间达到了240秒。通过对模型的蒸馏处理，并利用 Arm 的软件栈，特别是通过 XNNPack 的 KleidiAI 中的 int8矩阵乘法内核，该公司成功将生成一个11秒音频片段的时间缩短至8秒，提升了30倍的响应速度。

需要注意的是，用户需要一部兼容的移动设备才能体验这一功能。考虑到如今大多数智能手机都配备 Arm 架构的 CPU，因此这一技术应对各类用户而言都变得更加可及。未来，Stability AI还计划将其在图像、视频和3D 领域的所有模型都带到边缘设备，旨在彻底改变移动设备上的视觉媒体创作方式。

划重点:
🌟 Stability AI能与 Arm 合作，推出可在移动设备上离线生成音频的技术。
⚡ 通过模型蒸馏和软件优化，音频生成时间从240秒缩短至8秒，效率提升30倍。
📱 这一技术可在大多数搭载 Arm CPU 的智能手机上使用，未来将扩展到更多媒体创作领域。

ARM最新回应：新架构Armv9不受美国出口管理条例约束，华为可获授权

对于Armv9架构，ARM首席执行官西蒙·塞加斯表示，「v9架构将提升安全性和信任度，并为未来十年的计算机技术奠定基础。」与此同时，v9架构不受美国出口管理条例约束也为华为带来了利好消息。

3/31/2021 5:01:00 PM

机器之心

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

4/4/2024 10:23:56 AM

故渊

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 Hugging

6/6/2024 2:15:01 PM

故渊

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

Stability AI与 Arm 合作 推出离线生成音频技术

相关资讯

ARM最新回应：新架构Armv9不受美国出口管理条例约束，华为可获授权

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI与 Arm 合作推出离线生成音频技术