为多模态LLM引入ControlNet理念,开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办? 像文生图那样有ControlNet即可解决。 这就是由360人工智能研究院提出的IAA的核心思路。

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办?

像文生图那样有ControlNet即可解决。

这就是由360人工智能研究院提出的IAA的核心思路。该研究成果已被AAAI接收,并且开源。

图片图片

IAA工作的思路,就是希望能把多模态理解能力像文生图领域中的ControlNet一样,作为插件添加到基座的语言模型之上,从而实现在完全不影响语言模型原有能力的前提下,实现多模态能力的插件化,并进一步形成一种全新的语言模型生态体系。

针对语言模型研究全新插件控制机制

当前的多模态大模型(LMM:Large Multimodal Model)主流采取的是以LLaVA系列为代表的桥接式结构:视觉编码器与LLM之间通过模态桥接器projector进行连接实现多模态理解能力

桥接式结构的优点是结构简单,训练成本低(几十万微调数据即可实现基本的图像理解能力),目前主流的LMM模型包括QwenVL、DeepSeekVL、internVL以及研究院自研的360VL(https://github.com/360CVGroup/360VL)等都是采用这种结构。

但桥接式结构一直存在一个难以克服的缺点:模型多模态能力的提升不可避免地带来原有文本能力的下降

这背后的深层原因是,为了尽可能提升LMM在多模态理解任务上的性能表现,主流模型中内嵌的LLM语言模型参数都要在多模态训练中打开参与学习,这样虽然可以比较容易刷高多模态任务上的指标,但语言模型原有的文本理解能力会因为参与多模态训练而发生灾难性遗忘的问题。

这也是为什么当前主流的多模态模型都独立于语言模型之外存在,并冠以-VL进行区分的原因。

图片图片

上图清晰地比较了多模态训练前后,内嵌语言模型在文本任务(MMLU和C-eval)上因为灾难性遗忘的发生而出现的能力下滑情况。

另外从实用的角度来说,当前的多模态模型需要独立于语言模型之外单独部署,意味着应用时需要翻倍的部署成本,从经济的角度来说也亟待新技术的突破。

“IAA工作的灵感来自于我们同时负责的多模态生成方向的研究。”冷大炜博士表示。

“文生图领域有着与语言模型领域完全不同的繁荣生态。在文生图领域中,大家是围绕着一个基座模型,通过接入不同的插件来完成不同的任务,而不是像语言模型领域这样要求一个模型完成所有任务。IAA工作借用了这一思路。”

在IAA的研究中作者发现,简单地将文生图领域的ControlNet结构复制到语言模型上的表现并不好,背后的原因是当前语言模型主流是Transformer堆叠的结构,这与文生图模型中的UNet结构有着很大的差异,为此针对语言模型需要研究全新的插件控制机制。

图片图片

在实验比较了一系列不同的结构后,最终形成了v1版的IAA插件网络结构如下:

图片图片

与主流的LLaVA结构相比,IAA在网络设计上保持基座语言模型参数不变,从而避免了灾难性遗忘问题的发生;对于多模态知识的学习,则是通过多个新增的插入层进行专门处理。

推理时,IAA网络只需要部署一套模型权重,text-only任务走text-only workflow,而多模态任务则走multimodal workflow,从而避免了既要部署一套语言模型还要另外部署一套多模态模型的成本难题。

此外,IAA插件结构不仅适用于多模态任务,对于需要在基座模型能力上特别加强的任务,如code、math等任务,一样可以通过插件的方式进行专门增强,实现“基座模型+专业插件”处理专业任务的全新用法和生态。

在通用多模态benchmark上比较了IAA与其它相关工作的表现,验证了IAA在保持模型原有能力的同时,能有效提升其在多模态任务上的表现。

相关资讯

【多模态&LLM】POINTS多模态大模型浅谈

NaViT概述NaViT利用序列打包训练,处理任意分辨率和长宽比的输入,在大规模监督和对比图像文本预训练中提高了训练效率,可以用于图像和视频分类、目标检测和语义分割,并在鲁棒性和公平性基准测试中取得了改进的结果。 图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结:数据预处理:如上图展示了NaViT在处理任意分辨率的方法,将不同分辨率的图像分割成补丁(patches),然后应用令牌丢弃(token drop)操作,类似于dropout,以加速训练过程。 预处理后,将三张图像生成的补丁展平为一个序列,不足的部分用填充(padding)补充。

专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语

与聋哑人交流,是一件成本很高的事情。 首先要看得懂手语,其次是会打手语。 在全球任何一个国家,手语都被归属为一门“小语种”。

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型? 过去一年,由于 6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。 诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。