能够灵验实现多模态交叉提醒追踪。
宗旨追踪是计算机视觉的一项根蒂根基视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 宗旨追踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候宗旨追踪。
然而,现有的多模态追踪任务也面临两个主要问题:
由于多模态宗旨追踪的数据标注成本高,大多数现有数据集规模有限,不足以支持构建灵验的多模态追踪器;
因为分别的成像方式在变化的环境中对物体的敏感度分别,开放世界中主宰模态是动向变化的,多模态数据之间的主宰相关性并不固定。
在 RGB 序列上进行预训练,然后以完全微调的方式转移到多模态场景的许多多模态追踪工作存在时间昂贵和效率低下的问题,同时表现出有限的功能。
除了完全微调方式之外,受自然语言处理 (NLP) 领域参数高效微调方式成功的启发,一些最近的方式通过冻结骨干网络参数并附加一组额外可进修的参数,将参数高效 prompt 微调引入到多模态追踪中。
这些方式通常以一种模态 (通常是 RGB) 为主宰模态,另一种模态作为辅佐模态。然而,这些方式忽略了多模态数据的动向主宰相关性,难以在如图 1 所示的复杂场景中充分利用互补的多模态信息,从而限制了追踪功能。
图 1:复杂场景下分别的主宰模态。
为了解决上述问题,来自天津大学的研究人员设计出了一种双向 adapter 用于多模态追踪 (BAT)。与在主宰模态中添加辅佐模态信息作为提醒以增强根蒂根基模型在下游任务中的表示能力的方式 (通常使用 RGB 作为主要模态) 分别,该方式没有预设固定的主宰模态 – 辅佐模态,而是在辅佐模态向主宰模态变化的过程中动向提取灵验信息。
BAT 由两个共享参数的特定于模态分支的根蒂根基模型编码器和一个通用的双向 adapter 组成。在训练过程中,BAT 没有对根蒂根基模型进行完全的微调,每个特定的模态分支由具有固定参数的根蒂根基模型初始化,仅训练新增的双向 adapter。每个模态分支从其他模态中进修提醒信息,与当前模态的特性信息相结合,增强表征能力。两个特定模态的分支通过通用双向 adapter 执行交互,在多模态非固定关联范式中动向地相互融合主宰辅佐信息。
通用双向 adapter 具有轻量级沙漏结构,它可以嵌入到根蒂根基模型的每一层 transformer 编码器中,而不需要引入大量的可进修参数。通过添加少量的训练参数 (0.32M),BAT 与全微调方式和基于提醒进修的方式相比具有更低的训练成本,获得了更好的追踪功能。
论文《Bi-directional Adapter for Multi-modal Tracking》:
论文链接:https://arxiv.org/abs/2312.10611
代码链接:https://github.com/SparkTempest/BAT
主要贡献
我们首先提出了一个基于 adapter 的多模态追踪视觉提醒框架。我们的模型能够感知开放场景中主宰模态的动向变化,以自适应的方式灵验融合多模态信息。
据我们所知,我们首次为根蒂根基模型提出了一个通用的双向 adapter。它结构简单、高效,能灵验地实现多模态交叉提醒追踪。通过仅添加 0.32M 可进修参数,我们的模型可以鲁棒应对开放场景下的多模态追踪。
我们深入分析了我们的通用 adapter 在分别层深的影响。我们还在实验中探索了更高效的 adapter 架构,并验证了我们在多个 RGBT 追踪相关数据集上的优势。
核心方式
如图 2 所示,我们提出了一个基于双向 Adapter 的多模态追踪视觉提醒框架 (BAT),框架具有 RGB 模态和热红外模态的双流编码器结构,每个流使用相同的根蒂根基模型参数。双向 Adapter 与双流编码器层并行设置,从两个模态相互交叉提醒多模态数据。
方式没有对根蒂根基模型进行完全的微调,仅通过进修轻量级双向 Adapter,将预先训练好的 RGB 追踪器高效地转移到多模态场景中,实现了出色的多模态互补性和卓越的追踪精度。
图 2:BAT 的总体架构。
首先将每种模态的模板帧(第一帧中宗旨物体的初始框)和搜索帧(后续追踪图像)转换为 ,将它们拼接在一起分别传递给 N 层双流 transformer 编码器。
双向 adapter 与双流编码器层并行设置,可以进修从一种模态到另一种模态的特性提醒。为此,将两个分支的输出特性相加并输入到预测头 H 中,得到最终的追踪结果框 B。
双向 adapter 采用模块化设计,分别嵌入到多头自注意力阶段和 MLP 阶段,如图 1 右侧所示双向 adapter 的详细结构,其设计用于将特性提醒从一种模态转移到另一种模态。它由三个线性投影层组成,tn 表示每个模态的 token 个数,输入 token 首先通过下投影被降维为 de 并通过一个线性投影层,然后向上投影到原始维度 dt 并作为特性提醒反馈到其他模态的 transformer 编码器层。
通过这种简单的结构,双向 adapter 可以灵验地在 模态之间进行特性提醒,实现多模态追踪。
由于冻结了 transformer 编码器和预测头,因此只需要优化新增 adapter 的参数。值得注意的是,与大多数传统 adapter 分别,我们的双向 adapter 是作为动向变化的主宰模态的跨模态特性提醒而发挥作用的,确保了开放世界中良好的追踪功能。
实验效果
如表 1 所示,在 RGBT234 和 LasHeR 两个数据集上的对比表明我们在的方式在准确率和成功率上均优于最先进的方式。如图 3 所示,在 LasHeR 数据集的分别场景属性下,与最先进方式的功能比较也证明了所提出方式的优越性。
这些实验充分证明了我们的双流追踪框架与双向 Adapter 成功地追踪了大多数复杂环境中的宗旨,并自适应地从动向变化的主宰 – 辅佐模态中提取灵验信息,达到了最先进的功能。
表 1 RGBT234 和 LasHeR 数据集上的整体功能。
图 3 LasHeR 数据集中分别属性下 BAT 和竞争方式的比较。
实验证明我们在复杂场景中从不断变化的主宰 – 辅佐模式中动向提醒灵验信息的灵验性。如图 4 所示,与固定主宰模态的相关方式相比,我们的方式即使在 RGB 完全不可用的情况下也能灵验地追踪宗旨,当 RGB 和 TIR 在后续场景中都能提供灵验的信息时,追踪效果要好得多。我们的双向 Adapter 从 RGB 和 IR 模态中动向提取宗旨的灵验特性,捕获更准确的宗旨响应位置,并消除 RGB 模态的干扰。
图 4 追踪结果的可视化。
我们同样在 RGBE 追踪数据集上评估了我们的方式。如图 5 所示,在 VisEvent 测试集上与其他方式相比,我们的方式在分别复杂场景下的追踪结果最为准确,证明了我们的 BAT 模型的灵验性和泛化性。
图 5 VisEvent 数据集下追踪结果。
图 6 attention 权重可视化。
我们在图 6 中可视化了分别层追踪宗旨的注意力权重。与 baseline-dual (根蒂根基模型参数初始化的双流框架) 方式相比,我们的 BAT 灵验地驱动辅佐模态向主宰模态进修更多的互补信息,同时随着网络深度的增加保持主宰模态的灵验性,从而提高了整体追踪功能。
实验表明,BAT 成功地捕获了多模态互补信息,实现了样本自适应动向追踪。