即插即用ChatTracker:多模态大模型重塑目标跟踪

写在前面 & 笔者的个人理解视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。 最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。 然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。

写在前面 & 笔者的个人理解

视觉对象跟踪旨在基于初始边界框在视频序列中定位目标对象。最近,视觉语言(VL)跟踪器已经提出利用额外的自然语言描述来增强各种应用中的通用性。然而,VL跟踪器在跟踪性能方面仍然不如最先进的视觉跟踪器(SoTA)。我们发现,这种劣势主要是由于他们严重依赖手动文本注释,其中包括频繁提供模糊的语言描述。在本文中,我们提出了ChatTracker,利用多模态大语言模型(MLLM)中丰富的世界知识来生成高质量的语言描述并提高跟踪性能。为此,我们提出了一种新的基于反射的提示优化模块,通过跟踪反馈迭代地改进目标的模糊和不准确的描述。为了进一步利用MLLM产生的语义信息,提出了一种简单而有效的VL跟踪框架,该框架可以很容易地集成为即插即用模块,以提高VL和视觉跟踪器的性能。实验结果表明,我们提出的ChatTracker实现了与现有方法相当的性能。

图片

总结来说,本文的主要贡献如下:

  1. 我们提出了ChatTracker,这是一种利用MLLM进行视觉对象跟踪的新框架。据我们所知,这是将MLLM纳入跟踪框架的第一项工作。它为现有的视觉和VL跟踪器提供了即插即用的模块增强功能,计算开销有限。
  2. 我们引入了一个基于反射的提示优化(RPO)模块,以缩小VL跟踪器和MLLM之间的知识差距。通过反思跟踪反馈,RPO模块可以迭代优化MLLM的提示,最终为跟踪目标生成准确和相关的描述。与数据集中的人工标注文本相比,这些描述在跟踪性能和图像文本对齐方面都更优越。
  3. 我们提出的ChatTracker在多个跟踪数据集上实现了SoTA性能。我们进行了广泛的实验,包括消融研究,以证明所提出的方法及其各个模块的有效性。

相关工作回顾

Vision-Language Trackers

视觉语言跟踪方法Zhou等人、Ma和Wu等人探索了使用语言线索来增强视觉对象跟踪。这些方法可以根据其文本来源进行分类:使用手动注释文本的方法和从预定义词典生成描述的方法。在第一类中,手动注释文本已被广泛用于目标跟踪任务。LaSoT、TNL2K和MGIT等数据集为每个序列提供了手动注释的语言描述。SNLT跟踪器利用视觉和语言描述来预测目标状态,然后动态组合这些预测以产生最终结果。JointNLT将视觉基础和自然语言引导的跟踪相结合,有效地满足了这两个过程的不同要求。第二类利用预定义的词典生成语言描述。CiteTracker精心开发了一个类别词汇表,其中包括目标的颜色、纹理和材料等属性。在跟踪过程中,它使用CLIP来比较图像和文本之间的相似性,选择与图像非常匹配的文本作为目标的描述。与这些方法相反,我们的工作专门采用MLLM来获取目标的精确文本描述。这种方法有效地消除了对手动文本注释或预定义词典的依赖。

Large Language Model in Vision Tasks

大语言模型(LLM),如ChatGPT和Llama是在广泛的互联网规模文本上训练的自回归模型。它们在权重中包含了广泛的世界知识。最近,GPT-4V发布,因其出色的多模态感知和推理能力而立即引起了社区的关注。在此之后,使用CLIP模型对图像进行分类,提高了分类任务的精度。这些进步主要针对基本的视觉识别,如分类和检测。在这项工作中,我们致力于将LLM中包含的丰富世界知识整合到视觉对象跟踪领域。

ChatTracker方法详解

图片

所提出的ChatTracker由三个部分组成:基于反射的提示优化(RPO)模块、语义跟踪模块和前景验证模块。

Reflection-based Prompt Optimization Module

初始化。我们在第一帧I1中的跟踪目标上绘制一个绿色边界框,创建一个新的图像输入Im。预定义的人工提供的提示模板Tinit和Im被输入到MLLM中,从而对前景和背景进行初始描述:

图片

即插即用ChatTracker:多模态大模型重塑目标跟踪

图片

语义跟踪模块还包括一个现成的单对象视觉跟踪器。最后,前景验证模块通过考虑前景建议、背景建议和模板之间的关系,选择置信度最高的前景建议作为跟踪结果。

实验结果

图片图片图片图片

结论

在这项工作中,我们介绍了ChatTracker,这是第一种利用多模态大语言模型(MLLM)来提高视觉跟踪性能的方法。我们提出了一种基于反射的提示优化(RPO)模块,通过跟踪反馈迭代地改进目标的模糊和不准确的语言描述。此外,提出了一种简单而有效的视觉语言跟踪框架,作为即插即用的方法来提高现有跟踪器的性能。在多个数据集上的实验结果表明,我们的方法优于最先进的方法。这表明,将MLLM纳入视觉跟踪对提高跟踪性能有显著效果。

相关资讯

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

拖拽公式图片、一键转换LaTex公式,这款开源公式识别神器比Mathpix Snip更适合你

只需要把公式图片用鼠标拖动到工具内,就能一键转成 LaTex 公式。

DataWorks数据建模 - 一揽子数据模型管理解决方案

作者:DataWorks产品经理 刘天鸢在当下的商业环境中,正确的数据治理策略对于数据增值是非常重要的。据统计,企业的数据一直都在以每年50%的速度增长,因此企业数据治理与整合的难度就不断加大了。DataWorks一直以来都致力于成为用户更方便、更快捷地进行数据开发与数据治理的好帮手。此次发布的数据建模,是对已有数据治理领域能力的补齐,为用户带来了在数据开发前,实施事前治理的能力。一、为什么要数据建模引用《大数据之路:阿里巴巴大数据实践》中的内容:“如果把数据看作图书馆里的书,我们希望它们在书架上分门别类地放置;如