即插即用ChatTracker：多模态大模型重塑目标跟踪

写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近，视觉语言（VL）跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而，VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器（SoTA）。

写在前面 & 笔者的个人理解

视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近，视觉语言（VL）跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而，VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器（SoTA）。我们发现，这种劣势主要是由于他们严重依赖手动文本注释，其中包括频繁提供模糊的语言描述。在本文中，我们提出了ChatTracker，利用多模态大语言模型（MLLM）中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此，我们提出了一种新的基于反射的提示优化模块，通过跟踪反馈迭代地改进目标的模糊和不准确的描述。为了进一步利用MLLM产生的语义信息，提出了一种简单而有效的VL跟踪框架，该框架可以很容易地集成为即插即用模块，以提高VL和视觉跟踪器的性能。实验结果表明，我们提出的ChatTracker实现了与现有方法相当的性能。

总结来说，本文的主要贡献如下：

我们提出了ChatTracker，这是一种利用MLLM进行视觉对象跟踪的新框架。据我们所知，这是将MLLM纳入跟踪框架的第一项工作。它为现有的视觉和VL跟踪器提供了即插即用的模块增强功能，计算开销有限。
我们引入了一个基于反射的提示优化（RPO）模块，以缩小VL跟踪器和MLLM之间的知识差距。通过反思跟踪反馈，RPO模块可以迭代优化MLLM的提示，最终为跟踪目标生成准确和相关的描述。与数据集中的人工标注文本相比，这些描述在跟踪性能和图像文本对齐方面都更优越。
我们提出的ChatTracker在多个跟踪数据集上实现了SoTA性能。我们进行了广泛的实验，包括消融研究，以证明所提出的方法及其各个模块的有效性。

ChatTracker方法详解

即插即用ChatTracker：多模态大模型重塑目标跟踪

所提出的ChatTracker由三个部分组成：基于反射的提示优化（RPO）模块、语义跟踪模块和前景验证模块。

Reflection-based Prompt Optimization Module

初始化。我们在第一帧I1中的跟踪目标上绘制一个绿色边界框，创建一个新的图像输入Im。预定义的人工提供的提示模板Tinit和Im被输入到MLLM中，从而对前景和背景进行初始描述：

即插即用ChatTracker：多模态大模型重塑目标跟踪

语义跟踪模块还包括一个现成的单对象视觉跟踪器。最后，前景验证模块通过考虑前景建议、背景建议和模板之间的关系，选择置信度最高的前景建议作为跟踪结果。

实验结果

即插即用ChatTracker：多模态大模型重塑目标跟踪

结论

在这项工作中，我们介绍了ChatTracker，这是第一种利用多模态大语言模型（MLLM）来提高视觉跟踪性能的方法。我们提出了一种基于反射的提示优化（RPO）模块，通过跟踪反馈迭代地改进目标的模糊和不准确的语言描述。此外，提出了一种简单而有效的视觉语言跟踪框架，作为即插即用的方法来提高现有跟踪器的性能。在多个数据集上的实验结果表明，我们的方法优于最先进的方法。这表明，将MLLM纳入视觉跟踪对提高跟踪性能有显著效果。

{{userData.name}}已认证

即插即用ChatTracker：多模态大模型重塑目标跟踪

写在前面 & 笔者的个人理解

相关工作回顾

Vision-Language Trackers

Large Language Model in Vision Tasks

ChatTracker方法详解

Reflection-based Prompt Optimization Module

实验结果

结论

通用场景拉满了！GenXD：生成任何3D&4D场景（新加坡国立&微软最新）

李彦宏：不是要一个“超级应用”，是要打造数百万“超级有用”的应用

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

{{userData.name}}已认证

写在前面 & 笔者的个人理解

相关工作回顾

Vision-Language Trackers

Large Language Model in Vision Tasks

ChatTracker方法详解

Reflection-based Prompt Optimization Module

实验结果

结论

通用场景拉满了！GenXD：生成任何3D&4D场景（新加坡国立&微软最新）

李彦宏：不是要一个“超级应用”，是要打造数百万“超级有用”的应用​

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

李彦宏：不是要一个“超级应用”，是要打造数百万“超级有用”的应用