鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式

引言如图 1所示，现有的三阶段 RGB-T 单方向追踪收集通常采用两个独立的特色提取分支，分别负责提取两个模态的特色。然而，相互独立的特色提取分支会导致两个模态在特色提取阶段缺乏有效的信息交互。因此，一旦收集完成离线训练，其仅能从每个模态图象中提取固定的特色，无法根据实际的模态状态动态调整，以提取更具针对性的动态特色。这一局限性制约了收集对多样的方向双模态外表，以及模态外表间动态对应关系的适应能力。如图 2所示，这种特色提取方式并不适合 RGB-T 单方向追踪的实际应用场景，特别是在复杂环境下，因为被追踪方向的任意

引言

如图 1所示，现有的三阶段 RGB-T 单方向追踪收集通常采用两个独立的特色提取分支，分别负责提取两个模态的特色。然而，相互独立的特色提取分支会导致两个模态在特色提取阶段缺乏有效的信息交互。因此，一旦收集完成离线训练，其仅能从每个模态图象中提取固定的特色，无法根据实际的模态状态动态调整，以提取更具针对性的动态特色。这一局限性制约了收集对多样的方向双模态外表，以及模态外表间动态对应关系的适应能力。如图 2所示，这种特色提取方式并不适合 RGB-T 单方向追踪的实际应用场景，特别是在复杂环境下，因为被追踪方向的任意性会导致的方向双模态外表非常多样，并且两个模态外表之间的对应关系也会随着追踪环境的变化而变化。例如，由于遮挡、光照变化或热交叉等因素，经常会出现某个模态外表的临时变化或缺失，从而导致两种模态的外表所覆盖的地区或轮廓并不总是一致的。三阶段混合追踪无法很好地对三个功能部分进行协同设计，复杂的特色混合模块往往导致其有明显的速度瓶颈。

此外，现有鉴于Transformer的RGB-T单方向追踪收集都是采用直接相加或级联的方式，将两个模态搜刮地区的混合特色组合在一起，输入展望头，用于输出最终的展望结果。然而，当前 RGB-T 单方向追踪数据集提供的视频图象并不是完全对齐的，而且，并不是每个模态搜刮地区都可以提供有效信息，例如黑夜和热交叉追踪场景下，RGB 模态搜刮地区和红外搜刮地区将无法提供有效的方向外表信息，存在大量的背景噪音。因此，直接通过按元素相加或级联两个搜刮地区混合特色的单展望头结构，既没有考虑图象未对齐对追踪功能的影响，也没有考虑如何处理带有大量背景噪音信息的搜刮地区混合特色的问题。

鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式图 1图 2

为了解决当前三阶段混合追踪范式所面临的问题，本章提出了一个鉴于Transformer 的高效单阶段 RGB-T 单方向追踪收集 USTrack(Unified Single-Stage Transformer Network for Efficient RGB-T Tracking)。其核心是通过联合特色提取 &混合 & 关涉建模格式，将三阶段混合追踪范式的三个功能部分直接统一到一个ViT主干网中同时执行，从而实现在模态的交互下直接提取方向模板和搜刮地区的混合特色，并同时构建两个混合特色之间的关涉建模操作。由于三个功能部分都是通过一次自注意力体制的执行同时完成的，因此，借助于自注意力体制的高可并行性，USTrack 也创造了当前 RGB-T 单方向追踪的最快速度 84.2FPS。为了充分利用现有数据集提供的两个模态图象非对齐的精确真值标注，来适应RGB图象和热图象中方向的微小位置偏差，以及减轻无效模态产生的大量噪音信息对最终展望结果的影响，USTrack 还设计了一个鉴于模态可靠性的特色选择体制，该体制通过直接丢弃无效模态产生的混合特色来减少噪声信息对最终展望结果的影响。

本文的贡献如下：

1）针对当前三阶段混合追踪收集在模态特色提取阶段缺乏模态交互的问题，本章提出联合特色提取 & 混合 & 关涉建模格式。该格式可以在模态的交互下直接提取方向模板和搜刮地区的混合特色，并同时执行两个混合特色之间的关涉建模操作，首次为短时 RGB-T 单方向追踪收集的设计提供了一种高效且简洁的单阶段混合追踪范式。

（2）首次提出鉴于模态可靠性的特色选择体制，该体制可以根据实际追踪环境来评估不同模态图象的可靠性，并根据可靠性来丢弃无效模态生成的混合特色，减少噪音信息对最终展望结果的影响，从而进一步提高追踪功能。

（3）在三个主流 RGB-T 单方向追踪基准数据集上的大量实验表明，本章的格式在实现了新的 SoTA 功能的同时，也创造了高达 84.2FPS 的最快追踪速度。特别是在 VTUAV 短时追踪器数据集和长时追踪数据集上，USTrack 在 MPR/MSR 指标上比现有功能最好的格式高 11.1%/11.7% 和 11.3%/9.7%。

格式

如图 3所示，USTrack 的总体架构由三部分组成：双嵌入层、ViT 主干网和鉴于模态可靠性的特色选择体制。双嵌入层由两个独立的嵌入层组成。这是考虑到注意力体制是鉴于相似度去获取全局信息的，而不同模态数据的内在异质性，可能会导致两个模态对同一模式有不同的特色表示形式，如果直接通过注意力对模态信息进行混合，这种异质性可能会限制收集对模态共享信息的建模能力，从而影响后续的特色混合过程。因此，USTrack使用两个可学习的嵌入层将不同模态对应的输入映射到一个有利于混合的潜在空间，在一定程度上对两个模态进行模式对齐，降低模态内在异质性对特色混合的影响。然后，将双嵌入层的所有输出级联为一个整体作为 ViT 主干网的输入，通过其中的自注意力层，来同时执行输入图象的特色提取，特色混合以及方向模板混合特色与搜刮地区混合特色之间的关涉建模操作，从而实现联合特色提取 & 混合 & 关涉建模，统一 RGB-T 追踪的三个功能阶段，为 RGB-T 追踪提供一个高效的单阶段追踪范式。

鉴于模态可靠性的特色选择体制包括两个展望头和两个可靠性评估模块。它允许两个展望头输出不同的结果，并根据模态可靠性的得分，帮助收集选择更适合当前追踪场景的模态所对应的搜刮地区混合特色用于最终的展望，从而减少无效模态产生的噪声信息对最终展望结果的影响。

鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式图 3

实验结果

USTrack选择GTOT，RGBT234以及VTUAV数据集作为测试基准，测试结果如图 4所示。我们还以VTUAV为基准，对USTrack在不同挑战场景属性下的功能进行分析。如图 5所示，本文筛选了功能提升最为明显的6个挑战属性。分别为分别为：形变（DEF）、尺度变化（SV）、完全遮挡（FO）、部分遮挡（PO）、热交叉（TC）以及极端照明（EI）。具体来说，形变（DEF）和尺度变化（SV）挑战属性可以有效地体现了方向多样的双模态外表的差异。完全遮挡（FO）、部分遮挡（PO）、热交叉（TC）和极端照明（EI）挑战属性可以导致相应模态的外表发生变化或消失，有效地展示了方向在追踪过程中两种外表之间的动态对应关系。USTrack 在具有这些挑战属性的追踪场景下上取得了最显著的功能提升，可以较好的说明联合特色提取 & 混合 & 关涉建模格式可以有效缓解三阶段混合追踪范式中模态特色在提取阶段模态交互不足的问题，能够更好地适应方向多样的双模态外表和模态之间的动态关系。

鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式图 4图 5

如图 6和所示，为了验证鉴于模态可靠性的特色选择体制的有效性，我们在 RGBT234 基准数据集上，展开了带有特色选择体制的双展望头结构与几种常见展望头结构的对比实验，并给出了模态可靠性与实际追踪场景良好对应关系的可视化的结果。

鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式图 6图 7

总结

本章提出了一个鉴于 Transformer 的高效单阶段短时 RGB-T 单方向追踪网USTrack。USTrack 的核心是提出联合特色提取 & 混合 & 关涉建模格式，以解决传统三阶段混合追踪收集在特色提取阶段缺乏模态交互的问题。从而增强追踪收集了对多样的方向双模态外表和模态外表之间动态对应关系的适应能力。在此基础上，进一步提出了鉴于模态可靠性的特色选择体制。该体制通过直接摒弃无效模态产生的混合特色，来减少了噪声信息对最终展望结果的影响，从而获得更好的追踪功能。USTrack 在三个主流数据集上实现了 SoTA 功能，并以 84.2 FPS 的速度创造了最快 RGB-T 追踪推理速度的新记录。值得注意的是，在目前规模最大的 RGB-T 单方向追踪基准数据集 VTUAV 上，该格式比现有 SoTA 格式在评估指标 MPR/MSR 上分别增加了 11.1%/11.7% 和 11.3%/9.7%，取得了较大的功能突破，为该基准数据集增添了一个新的功能强大的基线格式。

作者信息

1. 夏坚强

军事科学院国防科技创新研究院硕士研究生。研究兴趣包括视觉图象处理、方向检测、单方向追踪等。第一作者发表CCF A类会议一篇，获2022年“华为杯”第四届中国研究生人工智能创新大赛华为专项一等奖。

2. 赵健

赵健，中国电信人工智能研究院多媒体认知学习实验室（EVOL Lab）负责人、青年科学家，西北工业大学光电与智能研究院研究员，博士毕业于新加坡国立大学，研究兴趣包括多媒体分析、临地安防、具身智能。

围绕无约束视觉感知理解共发表CCF-A类论文32篇，以第一/通讯作者在T-PAMI、CVPR等国际权威期刊和会议上发表论文31篇，含一作T-PAMI×2（IF: 24.314）、IJCV×3（IF: 13.369），第一发明人授权国家发明专利5项。相关技术成果在百度、蚂蚁金服、奇虎360等6个科技行业领军企业得到应用，产生了显著效益。曾入选中国科协及北京市科协“青年人才托举工程”，主持国自然青年科学基金等项目6项。曾获吴文俊人工智能优秀青年奖（2023）、吴文俊人工智能自然科学奖一等奖（2/5，2022）、新加坡模式识别与机器智能协会（PREMIA）Lee Hwee Kuan奖、ACM Multimedia唯一最佳学生论文奖（一作，1/208，CCF-A类会议，2018），7次在国际重要科技赛事中夺冠。

担任北京图象图形学学会理事，国际知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》编委，《Pattern Recognition Letters》、《Electronics》特刊客座编辑，VALSE资深领域主席，ACM Multimedia 2021分论坛主席，CICAI 2022/2023领域主席，CCBR 2024论坛主席，中国人工智能学会/中国图象图形学学会高级会员，“挑战杯”大学生科技作品竞赛评委，中国人工智能大赛专家委委员等。

主页：https://zhaoj9014.github.io

论文截图

鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式

论文链接

https://arxiv.org/abs/2308.13764

代码链接

https://github.com/xiajianqiang

{{userData.name}}已认证

鉴于Transformer的高效单阶段短时RGB-T单方向追踪格式

引言

格式

实验结果

总结

作者信息

Transformer本可以急功近利，但就是不做

体外命中率提高75%，Model Medicines&加州大学开发AI驱动的药物发明框架

最强文生图 AI 模型 Flux 再进化：出图速度快 6 倍，Elo 评分冲上 1153 傲视群雄

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

Meta 用 AI 生成北极光图片，遭网友怒喷

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

Meta 发布 AI 视频生成器 Movie Gen：可自动生成含声音的高清视频

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手