CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级试验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。论文链接：：：Task-Customized Mixture of Adapters for General Image Fusion

论文链接：https://arxiv.org/abs/2403.12494

代码链接：https://github.com/YangSun22/TC-MoA

论文题目：Task-Customized Mixture of Adapters for General Image Fusion

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

图 1 分歧融会任意的源图象对融会结果的主导强度变化

研究背景与动机

图象融会的目的是将同一场景中分歧传感器捕获的多源图象的互补信息整合到单个图象上。这种方式通常被用于提取图片重要信息和提高视觉质量。

目前，一般的图象融会主要包括多模态、多暴光、多焦图象融会等。融会任意表现出分歧的融会机制。多暴光图象融会（MEF）的重点是将具有多个暴光程度的图象序列转换成一个高质量的全暴光图象。每一个源图象为融会的图象提供自己的光照和结构信息。可见红外图象融会（VIF）是一种多模态图象融会（MMF），旨在融会红外和可见模态的互补信息，产生鲁棒且信息丰富的融会图象。红外图象提供更多的强度信息，而可见图象提供更多的纹理和梯度信息。多聚焦图象融会（MFF）的目的是从一系列部分聚焦的图象中生成一个全聚焦的图象。多聚焦融会图象的每一个清晰区域通常只需要学习一个源图象。因此，可以观察到，MEF 和 VIF 任意是多源相对平等的融会，而 MFF 是多源地位较为极端的任意，对图象的某一区域而言，往往表现出极化的选择。

随着深度学习技术的快速发展，近年来图象融会领域取得了很大的进展，而现有的要领大多只关注单一图象融会场景，通常为单一任意采用一定策略，如为某任意设计的复杂网络或任意一定的损失函数，导致无法直接应用在其他任意上。考虑到分歧融会任意的本质相同，即整合来自多个源图象的重要信息，最近提出的一些要领，试图使用统一的模型处理多种融会任意，构建通用的图象融会。然而，这些要领要么有主导任意偏差，要么为了多任意共性而牺牲个性，导致次优的性能。这促使我们探索一个更兼容的融会范式，它可以自适应地动态地兼容分歧的融会场景。

为了处理这一挑战，受到预训练基座模型强大的特点表示能力的启发，我们引入了基座模型作为一个冻结的编码器来提取多源图象的互补特点。与大多数现有要领分歧的是，我们借鉴了混合专家（MoE）的思想，将每一个专家作为一个高效的微调适配器，基于基座模型执行自适应视觉特点提醒融会。任意一定的路由网络定制这些适配器的混合，为分歧的源生成任意一定的融会提醒，形成一种新的任意定制混合适配器（TC-MoA）架构。另外，我们设计了互信息正则化来约束融会提醒，从而保证了对分歧来源的互补性。值得注意的是，融会提醒具有显著的任意偏差和模态主导强度差异。如图 1 所示，MFF 的提醒比 VIF 和 MEF 的色差更大，说明特点选择在优势模态的强度偏差上具有更多的双极性。我们的模型有效地感知了单一模型中分歧融会任意之间的融会强度偏差，因此与更广泛的融会任意相兼容。

大量的试验验证了我们在通用图象融会方面的优越性，包括多模态、多暴光和多焦点融会。更重要的是，我们的 TC-MoA 甚至对未知的融会任意显示出了创造性的可控性和泛化性，充分展示了我们在更广泛的融会场景中的潜力。

主要贡献

我们提出了一个统一的通用图象融会模型，提供了一种新的任意定制混合适配器（TC-MoA）用于自适应多源图象融会（受益于动态聚合各自模式的有效信息）。

我们为适配器提出了一种互信息正则化要领，这使得我们的模型能够更准确地识别分歧源图象的主导强度。

据我们所知，我们首次提出了一种基于 MoE 的灵活适配器。通过只添加 2.8% 的可学习参数，我们的模型可以处理许多融会任意。大量的试验证明了我们的竞争要领的优势，同时显示了显著的可控性和泛化性。

核心要领

如图 2 所示，给定一对源图象 CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意，网络整合来自分歧源的互补信息，获得融会图象。我们将源图象输入 ViT 网络，并通过 patch 编码层获得源图象的 Token。ViT 由一个用于特点提取的编码器和一个用于图象重建的解码器组成，这两者都是由 Transformer 块组成的。

在编码器和解码器中，每 CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意个 Transformer 块插入一个 TC-MoA。网络通过这些 TC-MoA 逐步调制融会的结果。每一个 TC-MoA 由一个一定于任意的路由器银行，一个任意共享适配器银行和一个提醒融会层F组成。TC-MoA 包括两个主要阶段：提醒生成和提醒驱动的融会。为了便于表达，我们以 VIF 为例，假设输入来自 VIF 数据集，并使用G来表示 CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意。

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

图 2 TC-MoA 的总体架构

提醒生成。首先，获得后续处理的多源特点。将第 j 个 TC-MoA 之前的网络结构定义为 CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意，并提取提醒生成特点定义为。我们将作为多源 Token 对的特点表示拼接起来。这允许来自分歧来源的 Token 在后续的网络中交换信息。然而，直接计算高维的拼接特点会带来大量不必要的参数。因此，我们使用 CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意进行特点降维，得到处理后的多源特点，如下：

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

然后，根据 Φ 所属的任意，我们从路由器银行中选择一个任意一定的路由器来定制路由方案，即，每对源 Token 应该输入适配器银行中的哪个适配器。

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

最后，我们对适配器的输出进行加权求和，以获得融会提醒。每一个路由器都有任意偏好来定制合适的适配器混合，然后通过适配器混合生成提醒，计算要领如下：

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

提醒驱动的融会。任意定制的提醒受到互信息正则化（MIR）的约束，这保证了对分歧源的互补性。因此，提醒可以作为对每一个来源中重要信息的比例的估计。通过多源特点和提醒的点乘，我们在去除冗余信息的同时保留了互补信息。然后，考虑到特点表示应该包含源相关的偏置（如可见或红外图象），我们为每一个源引入输入无关的可学习参数，即源编码 s。特点在经过提醒修饰和源偏置，我们得到细化的源特点 CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意，然后经过融会层 F 获得融会特点，过程如下：

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

最终，我们通过任意定制的提醒获得了一个融会特点。为了鼓励模型逐步地提取重要信息，我们对输出到下一个 Transformer 块的特点定义如下（ CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意是一个超参数）：

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

互信息正则。为了保证模型在丢弃多源特点冗余信息的同时，动态地保留互补信息，我们对提醒符施加了正则化约束。假设特点表示呈线性变化，我们定义 MIR 如下：

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

试验效果

定性和定额试验。如图 3-5 和表 1-3 所示，在三个融会任意上的定性和定额对比表明我们的要领性能超越以往的通用融会要领。与一定任意的要领相比，我们的要领在所有任意上也达到了先进水平，甚至在部分任意（VIF）上达到了领先水平。证明了所提要领的优越性。

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

图 3 VIF 任意 LLVIP 数据集上的定性比较试验

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

图 4 MEF 任意 MEFB 数据集上的定性比较试验

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

图 5 MFF 任意数据集上的定性比较试验

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

表 1 VIF 任意 LLVIP 数据集上的定额比较试验

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

表 2 MEF 任意 LLVIP 数据集上的定额比较试验

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

表 3 MFF 任意 LLVIP 数据集上的定额比较试验

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

图 6 域内任意的可控性和未知任意的泛化性

可控性和泛化性。如图 6 所示，通过控制融会提醒的超参数 α 和 β，我们可以分别控制模型对源图象互补信息的特点选择强度（区域级）和融会图象与某个源图象的相似度（图象级）。我们可以通过线性变换融会提醒，最终实现生成定制的融会图象。对于已知的任意，如多暴光融会，我们可以得到定制化的最符合人类感知的融会结果。对于未知任意，我们可以调制出最合适的融会参数，将模型泛化到未知任意。

{{userData.name}}已认证

CVPR 2024 | 基于MoE的通用图象融会模型，添加2.8%参数完成多项任意

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

这就是OpenAI神秘的Q*？斯坦福：谈话模型就是Q函数

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩