Audio

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型：自由互动，无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型，Qwen2-Audio 能够接受各种音频信号输入，并根据语音指令执行音频分析或直接响应文本，有两种不同的音频交互模式：语音聊天：用户可以自由地与 Qwen2-Audio 进行语音互动，而无需文本输入音频分析：用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试，Qwen2-Audio 超越了先前的最佳模型。▲ Q

8/13/2024 12:07:20 PM

沛霖（实习）

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 Hugging

6/6/2024 2:15:01 PM

故渊

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stability AI 近日发布新闻稿，宣布推出 Stable Audio2.0，可以基于用户输入的提示词，生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。IT之家附上演示视频如下：例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段

4/4/2024 10:23:56 AM

故渊

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练