阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。▲ Q
感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:

语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入

音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析

官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

▲ Qwen2-Audio 整体表现

AI在线附相关链接如下:

试用链接:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

论文地址:https://arxiv.org/abs/2407.10759

评估标准:https://github.com/OFA-Sys/AIR-Bench

开源代码:https://github.com/QwenLM/Qwen2-Audio

相关资讯

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品

Stability AI 近日发布新闻稿,宣布推出 Stable Audio2.0,可以基于用户输入的提示词,生成最长 3 分钟的完整音轨。Stable Audio 2.0 在此前 1.0 版本基础上,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。IT之家附上演示视频如下: 例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段

Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。Stable Audio Open 目前已经开源,IT之家附上相关链接,感兴趣的用户可以在 Hugging

阿里云百炼上线百万长文本模型Qwen2.5 -Turbo,百万tokens仅需0.3元

11月20日消息,最新的Qwen2.5-Turbo已在阿里云百炼上线,该模型支持100万超长上下文,相当于100万个英文单词或150万个汉字,在多个长文本评测集上的性能表现超越GPT-4。 即日起,所有用户可在阿里云百炼调用Qwen2.5-Turbo API,百万tokens仅需0.3元。 全新的Qwen2.5-Turbo在1M长度的超长文本检索(Passkey Retrieval)任务中的准确率可达到100%,在长文本评测集RULER上获得93.1分,超越GPT-4;在LV-Eval、LongBench-Chat等更加接近真实场景的长文本任务中,Qwen2.5-Turbo在多数维度超越了GPT-4o-mini;此外,在MMU、LiveBench等短文本基准上Qwen2.5-Turbo的表现也非常优秀,在大部分任务上的表现显著超越之前上下文长度为1M tokens的开源模型。