阿里通义宣布开源R1-Omni模型可提升多模态情感识别能力

2025-03-12 08:21

3月11日，通义实验室团队宣布开源R1-Omni模型，为全模态模型的发展带来了新的突破。该模型结合了强化学习与可验证奖励（RLVR）方法，专注于提升多模态情感识别任务中的推理能力和泛化性能。 R1-Omni的训练分为两个阶段。

3月11日，通义实验室团队宣布开源R1-Omni模型，为全模态模型的发展带来了新的突破。该模型结合了强化学习与可验证奖励（RLVR）方法，专注于提升多模态情感识别任务中的推理能力和泛化性能。

R1-Omni的训练分为两个阶段。在冷启动阶段，团队使用包含580条视频数据的组合数据集进行微调，这些数据来自Explainable Multimodal Emotion Reasoning（EMER）数据集和HumanOmni数据集。这一阶段旨在为模型奠定基础推理能力，确保其在进入RLVR阶段前具备一定的多模态情感识别能力，从而保障后续训练的平稳性、效率与稳定性。

微信截图_20250312082133.png

随后，在RLVR阶段，模型通过强化学习与可验证奖励机制进一步优化。该阶段的关键在于策略模型和奖励函数。策略模型处理视频帧和音频流组成的多模态输入数据，生成带有详细推理过程的候选响应，展示模型如何整合视觉和听觉信息以得出预测。奖励函数则受DeepSeek R1启发，分为精确率奖励和格式奖励两部分，共同形成最终奖励，既鼓励模型生成正确预测，又保证输出结构化且符合预设格式。

实验结果显示，R1-Omni在同分布测试集DFEW和MAFW上，相较于原始基线模型平均提升超过35%，相较于有监督微调（SFT）模型在未加权平均召回率(UAR)上提升高达10%以上。在不同分布测试集RAVDESS上，其加权平均召回率(WAR)和UAR均提升超过13%，展现出卓越的泛化能力。此外，R1-Omni还具有显著的透明性优势，通过RLVR方法，音频和视频信息在模型中的作用变得更加清晰可见，能够明确展示各模态信息对特定情绪判断的关键作用，为理解模型决策过程和未来研究提供了重要参考。

论文:

https://arxiv.org/abs/2503.05379

Github:

https://github.com/HumanMLLM/R1-Omni

模型:

https://www.modelscope.cn/models/iic/R1-Omni-0.5B