即插即用ChatTracker：多模态大模型重塑目标跟踪

写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近，视觉语言（VL）跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而，VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器（SoTA）。

写在前面 & 笔者的个人理解

视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近，视觉语言（VL）跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而，VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器（SoTA）。我们发现，这种劣势主要是由于他们严重依赖手动文本注释，其中包括频繁提供模糊的语言描述。在本文中，我们提出了ChatTracker，利用多模态大语言模型（MLLM）中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此，我们提出了一种新的基于反射的提示优化模块，通过跟踪反馈迭代地改进目标的模糊和不准确的描述。为了进一步利用MLLM产生的语义信息，提出了一种简单而有效的VL跟踪框架，该框架可以很容易地集成为即插即用模块，以提高VL和视觉跟踪器的性能。实验结果表明，我们提出的ChatTracker实现了与现有方法相当的性能。

总结来说，本文的主要贡献如下：

我们提出了ChatTracker，这是一种利用MLLM进行视觉对象跟踪的新框架。据我们所知，这是将MLLM纳入跟踪框架的第一项工作。它为现有的视觉和VL跟踪器提供了即插即用的模块增强功能，计算开销有限。
我们引入了一个基于反射的提示优化（RPO）模块，以缩小VL跟踪器和MLLM之间的知识差距。通过反思跟踪反馈，RPO模块可以迭代优化MLLM的提示，最终为跟踪目标生成准确和相关的描述。与数据集中的人工标注文本相比，这些描述在跟踪性能和图像文本对齐方面都更优越。
我们提出的ChatTracker在多个跟踪数据集上实现了SoTA性能。我们进行了广泛的实验，包括消融研究，以证明所提出的方法及其各个模块的有效性。

ChatTracker方法详解

所提出的ChatTracker由三个部分组成：基于反射的提示优化（RPO）模块、语义跟踪模块和前景验证模块。

Reflection-based Prompt Optimization Module

初始化。我们在第一帧I1中的跟踪目标上绘制一个绿色边界框，创建一个新的图像输入Im。预定义的人工提供的提示模板Tinit和Im被输入到MLLM中，从而对前景和背景进行初始描述：

即插即用ChatTracker：多模态大模型重塑目标跟踪

语义跟踪模块还包括一个现成的单对象视觉跟踪器。最后，前景验证模块通过考虑前景建议、背景建议和模板之间的关系，选择置信度最高的前景建议作为跟踪结果。

实验结果

结论

在这项工作中，我们介绍了ChatTracker，这是第一种利用多模态大语言模型（MLLM）来提高视觉跟踪性能的方法。我们提出了一种基于反射的提示优化（RPO）模块，通过跟踪反馈迭代地改进目标的模糊和不准确的语言描述。此外，提出了一种简单而有效的视觉语言跟踪框架，作为即插即用的方法来提高现有跟踪器的性能。在多个数据集上的实验结果表明，我们的方法优于最先进的方法。这表明，将MLLM纳入视觉跟踪对提高跟踪性能有显著效果。