西北工业大学开源语音理解模型OSUM，结合Whisper和Qwen2，支持8种语音理解任务

作者：AI在线

2025-02-20 04:33

在人工智能领域，语言模型的快速发展引发了语音理解语言模型（SULMs）的广泛关注。近日，西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM，旨在探索在学术资源有限的情况下，如何有效训练和利用语音理解模型，以推动学术界的研究与创新。 OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型，支持8种语音任务，包括语音识别（ASR）、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。

在人工智能领域，语言模型的快速发展引发了语音理解语言模型（SULMs）的广泛关注。近日，西北工业大学 ASLP 实验室发布了开放语音理解模型 OSUM，旨在探索在学术资源有限的情况下，如何有效训练和利用语音理解模型，以推动学术界的研究与创新。

OSUM 模型融合了 Whisper 编码器与 Qwen2语言模型，支持8种语音任务，包括语音识别（ASR）、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)及语音转文本聊天(STTC)。该模型通过采用 ASR+X 训练策略，能够在进行目标任务的同时高效稳定地优化语音识别，提升多任务学习的能力。

OSUM 模型的发布不仅注重性能表现，还强调透明性。其训练方法和数据准备过程均已开放，旨在为学术界提供有价值的参考与指导。根据技术报告 v2.0的介绍，OSUM 模型的训练数据量已提升至50.5K 小时，显著高于之前的44.1K 小时。其中，包括3000小时的语音性别分类数据和6800小时的说话人年龄预测数据。这些数据的扩展使得模型在各种任务中的表现更加优异。

据评估结果显示，OSUM 在多项任务上优于 Qwen2-Audio 模型，即使在计算资源和训练数据方面明显较少。相关的评估结果不仅涵盖了公共测试集，还包括内部测试集，展示了 OSUM 模型在语音理解任务上的良好性能。

西北工业大学 ASLP 实验室表示，OSUM 的目标是通过开放的研究平台，促进先进语音理解技术的发展。科研人员和开发者可自由使用该模型的代码和权重，甚至可用于商业目的，从而加速技术的应用与推广。

项目入口：https://github.com/ASLP-lab/OSUM?tab=readme-ov-file

划重点:
🌟 OSUM 模型结合 Whisper 编码器与 Qwen2语言模型，支持多种语音任务，助力多任务学习。
📊 OSUM 在技术报告 v2.0中，训练数据量增至50.5K 小时，提升了模型的性能。
🆓 该模型的代码和权重在 Apache2.0许可下开放使用，鼓励学术界和工业界的广泛应用。

相关标签：

人工智能语言模型 Whisper OSUM

相关资讯

OpenAI CEO在社交平台征询用户意见，或暗示重返开源之路

OpenAI CEO在社交平台征询用户意见，或暗示重返开源之路

OpenAI 的首席执行官 Sam Altman 近日在社交媒体平台 X 上发起了一项调查，询问用户对公司下一步开源开发方向的看法。这一举动发生在 OpenAI 正在经历重大转型的背景下，公司正将其营利部门转变为公益公司。自从获得微软投资以来，OpenAI 与开源的关系发生了显著变化。

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

两天star量破千：OpenAI的Whisper被蒸馏后，语音识别数倍加速

模型小了，幻觉还减轻了。前段时间，「霉霉大秀中文」的视频在各个社交媒体走红，随后又出现了「郭德纲大秀英语」等类似视频。这些视频很多都出自一个名叫「HeyGen」的 AI 应用之手。不过，从 HeyGen 现在的火爆程度来看，想用它制作类似视频可能要排很久。好在，这并不是唯一的制作方法。懂技术的小伙伴也可以寻找其他替代方案，比如语音转文字模型 Whisper、文字翻译 GPT、声音克隆生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace dengdeng。其中，这个语音转文字的 Whis

OpenAI上线新功能太强了，服务器瞬间被挤爆

OpenAI上线新功能太强了，服务器瞬间被挤爆

让 ChatGPT 服务器宕机，你参与了吗？OpenAI 开发者日上新功能太火爆，服务器都挤爆了。太平洋时间 11 月 8 日上午 6 点左右开始，ChatGPT 服务器宕机超过 90 分钟，用户访问会收到「ChatGPT 目前已满载（ChatGPT is at capacity right now）」的消息。随后，OpenAI 接连发布两次「服务器中断」警告 —— 一次部分中断、一次全线中断，并称正在调查宕机原因，进行修复和监控。最新状态显示：「ChatGPT 和 API 仍然会出现周期性中断。」OpenAI 表

资讯热榜

OpenAI破大防，拒绝率从98%骤降2%！陈怡然团队提出全新思维链劫持攻击 ChatGPT“生成吉卜力风格 AI 图”海外潮流引发版权争议，CEO Sam Altman 回应将施以限制 GPT-4o整活！3个小时、6个镜头重现吉卜力版《甄嬛传》名场面内存革命！LangGraph 0.3.19如何实现Python内存使用效率的飞跃？ DeepSeek-R1之后推理模型发展如何？Raschka长文梳理后R1时代14篇重要论文开源版Suno来了！AI音乐生成模型YuE可生成专业级的歌声和伴奏刷屏网络后，ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求 Midjourney V7将于3月31日发布:重新定义AI生成艺术的疆界

标签云

评论