Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以鉴于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型鉴于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 Hugging

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以鉴于用户输入的提示词，生成高质量音频样本。

Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型鉴于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示：“虽然它可以生成简短的音乐片断，但并不适合残破的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0 不同是，前者为开源模型，专注于短音频片断和音效，而后者能够生成最长 3 分钟的残破音频。

{{userData.name}}已认证

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

腾讯混元文生图开源大模型加速库发布：生图时间缩短 75%

OPPO 今年计划让约 5 万万用户的手机搭载生成式 AI，国外机型将接入google Gemini 大模型

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

平安人寿ChatBI：大模型智能化报表的深度实践

ChatGPT遇到这些人名开始自闭，OpenAI回应了

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！