阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。▲ Q

感谢阿里通义千问开源 Qwen2-Audio 系列的两个模型 Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。

作为一个大规模音频语言模型,Qwen2-Audio 能够接受各种音频信号输入,并根据语音指令执行音频分析或直接响应文本,有两种不同的音频交互模式:

语音聊天:用户可以自由地与 Qwen2-Audio 进行语音互动,而无需文本输入

音频分析:用户可以在互动过程中提供音频和文本指令对音频进行分析

官方在一系列基准数据集上进行了测试,Qwen2-Audio 超越了先前的最佳模型。

阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本

▲ Qwen2-Audio 整体表现

AI在线附相关链接如下:

试用链接:https://huggingface.co/spaces/Qwen/Qwen2-Audio-Instruct-Demo

论文地址:https://arxiv.org/abs/2407.10759

评估标准:https://github.com/OFA-Sys/AIR-Bench

开源代码:https://github.com/QwenLM/Qwen2-Audio

给TA打赏
共{{data.count}}人
人已打赏
应用

梅赛德斯-奔驰中国与火山引擎战略合作,重点探索大模型应用

2024-8-13 11:29:00

应用

复旦团队国际首次验证超快闪存集成工艺:20 纳秒超快编程、10 年非易失

2024-8-13 12:55:11

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索