阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解才能,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。MLLM 在多种视觉-说话开放恣意中夺得了出色的指令跟随才能。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态恣意的才能,如何平衡模态协调的收益与模态干扰的影响仍然是一个亟待解决的重要问题。论文地址:: 体验地址:  体验地址:,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协

OpenAI GPT-4V 和 Google Gemini 都展现了非常强的多模态理解才能,推动了多模态大模型(MLLM)快速发展,MLLM 成为了现在业界最热的研究方向。

MLLM 在多种视觉-说话开放恣意中夺得了出色的指令跟随才能。尽管以往多模态学习的研究表明不同模态之间能够相互协同和促进,但是现有的 MLLM 的研究主要关注提升多模态恣意的才能,如何平衡模态协调的收益与模态干扰的影响仍然是一个亟待解决的重要问题。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

论文地址:https://arxiv.org/pdf/2311.04257.pdf

代码地址:https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2

ModelScope 体验地址: https://modelscope.cn/studios/damo/mPLUG-Owl2/summary

HuggingFace 体验地址:https://huggingface.co/spaces/MAGAer13/mPLUG-Owl2

针对这一问题,阿里多模态大模型 mPLUG-Owl 迎来大升级,通过模态协同同时提升纯文本和多模态机能,超过 LLaVA1.5,MiniGPT4,Qwen-VL 等模型,夺得多种恣意 SOTA。具体的,mPLUG-Owl2 利用同享的功能模块来促进不同模态之间的协调,并引入模态自符合模块来保留各个模态自身的特色。通过简洁有效的设计,mPLUG-Owl2 在包括纯文本和多模态在内的多种恣意上夺得了 SOTA 机能,对模态协调现象的研究也有助于启发未来多模态大模型的发展。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 1 与现有 MLLM 模型机能对比

方法介绍

mPLUG-Owl2 模型主要由三部分组成:

Visual Encoder:以 ViT-L/14 作为视觉编码器,将输出的分辨率为 H x W 的图象,转换为 H/14 x W/14 的视觉 tokens 序列,输出到 Visual Abstractor 中。

Visual Abstractor:利用一组可学习的 query,提取高层次的语义特色,同时降低输出说话模型的视觉序列的长度。

说话模型:使用了 LLaMA-2-7B 作为文本解码器,并设计了如图 3 所示的模态自符合模块。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 2 mPLUG-Owl2 模型结构

为了对齐视觉和说话模态,现有的工作通常是将视觉特色映射到文本的语义空间中,然而这样的做法忽视了视觉和文本信息各自的特性,可能由于语义粒度的不匹配影响模型的机能。为了解决这一问题,本文提出模态自符合模块 (Modality-adaptive Module, MAM),来将视觉和文本特色映射到同享的语义空间,同时解耦视觉 – 说话表征以保留模态各自的独特属性。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 3 Modality-adaptive 模块示意图

如图 3 所示,与传统 Transformer 相比,模态自符合模块的主要设计在于:

在模块的输出、输出阶段,分别对视觉和说话模态进行 LayerNorm 操作,以符合两种模态各自的特色分布。

在自注意力操作中,对视觉和说话模态采用分离的 key 和 value 投影矩阵,但采用同享的 query 投影矩阵,通过这样解耦 key 和 value 投影矩阵,能够在语义粒度不匹配的情况下,避免两种模态之间的干扰。

两种模态同享相同的 FFN,从而促进模态间的协调。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 4 mPLUG-Owl2 训练策略

如图 4 所示,mPLUG-Owl2 的训练包含预训练和指令微调两个阶段。预训练阶段主要是为了实现视觉编码器和说话模型的对齐,在这一阶段,Visual Encoder、Visual Abstractor 都是可训练的,说话模型中则只对 Modality Adaptive Module 新增的视觉相关的模型权重进行更新。在指令微调阶段,结合文本和多模态指令数据(如图 5 所示)对模型的全部参数进行微调,以提升模型的指令跟随才能。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 5 mPLUG-Owl2 使用的指令微调数据

实验及结果

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 6 图象描述和 VQA 恣意机能阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 7 MLLM 基准测试机能

如图 6、图 7 所示,无论是传统的图象描述、VQA 等视觉 – 说话恣意,还是 MMBench、Q-Bench 等面向多模态大模型的基准数据集上,mPLUG-Owl2 都夺得了优于现有工作的机能。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 8 纯文本基准测试机能

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

图 9 模态自符合模块对纯文本恣意机能的影响

此外,为了评估模态协同对纯文本恣意的影响,作者还测试了 mPLUG-Owl2 在自然说话理解和生成方面的表现。如图 8 所示,与其他指令微调的 LLM 相比,mPLUG-Owl2 夺得了更好的机能。图 9 展示的纯文本恣意上的机能可以看出,由于模态自符合模块促进了模态协调,模型的考试和知识才能都得到了显著提高。作者分析,这是由于多模态协调使得模型能够利用视觉信息来理解说话难以描述的概念,并通过图象中丰富的信息增强模型的推理才能,并间接强化文本的推理才能。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

mPLUG-Owl2 展示了很强的多模态理解才能,有效的缓解多模态幻觉。相关多模态技术已应用于通义星尘、通义智文等核心通义产品,并已在 ModelScope,HuggingFace 开放 Demo。

阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTA

给TA打赏
共{{data.count}}人
人已打赏
应用

Midjourney V6迎来大升级:网友惊呼生成成果太传神

2023-12-25 12:04:00

应用

量子计较凛冬将至,LeCun:现实冷酷,炒作太多

2023-12-25 14:44:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索