为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？

像文生图那样有ControlNet即可解决。

这就是由360人工智能研究院提出的IAA的核心思路。该研究成果已被AAAI接收，并且开源。

图片

IAA工作的思路，就是希望能把多模态理解能力像文生图领域中的ControlNet一样，作为插件添加到基座的语言模型之上，从而实现在完全不影响语言模型原有能力的前提下，实现多模态能力的插件化，并进一步形成一种全新的语言模型生态体系。

针对语言模型研究全新插件控制机制

当前的多模态大模型（LMM：Large Multimodal Model）主流采取的是以LLaVA系列为代表的桥接式结构：视觉编码器与LLM之间通过模态桥接器projector进行连接实现多模态理解能力。

桥接式结构的优点是结构简单，训练成本低（几十万微调数据即可实现基本的图像理解能力），目前主流的LMM模型包括QwenVL、DeepSeekVL、internVL以及研究院自研的360VL（https://github.com/360CVGroup/360VL）等都是采用这种结构。

但桥接式结构一直存在一个难以克服的缺点：模型多模态能力的提升不可避免地带来原有文本能力的下降。

这背后的深层原因是，为了尽可能提升LMM在多模态理解任务上的性能表现，主流模型中内嵌的LLM语言模型参数都要在多模态训练中打开参与学习，这样虽然可以比较容易刷高多模态任务上的指标，但语言模型原有的文本理解能力会因为参与多模态训练而发生灾难性遗忘的问题。

这也是为什么当前主流的多模态模型都独立于语言模型之外存在，并冠以-VL进行区分的原因。

图片

上图清晰地比较了多模态训练前后，内嵌语言模型在文本任务（MMLU和C-eval）上因为灾难性遗忘的发生而出现的能力下滑情况。

另外从实用的角度来说，当前的多模态模型需要独立于语言模型之外单独部署，意味着应用时需要翻倍的部署成本，从经济的角度来说也亟待新技术的突破。

“IAA工作的灵感来自于我们同时负责的多模态生成方向的研究。”冷大炜博士表示。

“文生图领域有着与语言模型领域完全不同的繁荣生态。在文生图领域中，大家是围绕着一个基座模型，通过接入不同的插件来完成不同的任务，而不是像语言模型领域这样要求一个模型完成所有任务。IAA工作借用了这一思路。”

在IAA的研究中作者发现，简单地将文生图领域的ControlNet结构复制到语言模型上的表现并不好，背后的原因是当前语言模型主流是Transformer堆叠的结构，这与文生图模型中的UNet结构有着很大的差异，为此针对语言模型需要研究全新的插件控制机制。

图片

在实验比较了一系列不同的结构后，最终形成了v1版的IAA插件网络结构如下：

图片

与主流的LLaVA结构相比，IAA在网络设计上保持基座语言模型参数不变，从而避免了灾难性遗忘问题的发生；对于多模态知识的学习，则是通过多个新增的插入层进行专门处理。

推理时，IAA网络只需要部署一套模型权重，text-only任务走text-only workflow，而多模态任务则走multimodal workflow，从而避免了既要部署一套语言模型还要另外部署一套多模态模型的成本难题。

此外，IAA插件结构不仅适用于多模态任务，对于需要在基座模型能力上特别加强的任务，如code、math等任务，一样可以通过插件的方式进行专门增强，实现“基座模型+专业插件”处理专业任务的全新用法和生态。

在通用多模态benchmark上比较了IAA与其它相关工作的表现，验证了IAA在保持模型原有能力的同时，能有效提升其在多模态任务上的表现。