27页综述,354篇参考文献!最详尽的视觉定位综述来了

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

图片

  • 论文题目:Towards Visual Grounding: A Survey

  • 工作内容:视觉定位(Visual Grounding)任务十年发展系统性回顾

  • 论文链接:https://arxiv.org/pdf/2412.20206

  • 代码 / 仓库链接:https://github.com/linhuixiao/Awesome-Visual-Grounding.

  • 作者:肖麟慧(中国科学院自动化研究所,中国科学院大学)

27 页综述,354 篇参考文献!史上最详尽的视觉定位综述,内容覆盖过去十年的视觉定位发展总结,尤其对最近 5 年的视觉定位论文系统性回顾,内容既涵盖传统基于检测器的视觉定位,基于 VLP 的视觉定位,基于 MLLM 的视觉定位,也涵盖从全监督、无监督、弱监督、半监督、零样本、广义定位等新型设置下的视觉定位。

视觉定位任务新入门必读!跟进最新进展,视觉定位审稿人必读论文!

一、论文摘要

视觉定位(Visual Grounding)也被称为指代表达文本理解(Referring Expression Comprehension)和短语定位(Phrase Grounding)。它涉及根据给定的文本描述在图像中定位自然数量的特定区域。该任务的目标是模拟社会对话中普遍存在的指代关系,使机器具有类似人类的多模态理解能力。因此,视觉定位在各个领域有着广泛的应用。然而,自 2021 年以来,视觉定位取得了重大进展,比如,基于定位的预训练、定位多模态大语言模型、广义视觉定位、多图片定位、千兆像素定位等新概念不断涌现,带来了许多新的挑战。在本综述中,我们首先回顾了视觉定位的发展历史,并概述了基本的背景知识,包括视觉定位的基本概念和评估指标。我们系统地跟踪和总结了当前视觉定位的发展,并精心整理了各种已有的设置,并建立了这些设置的精确定义,以规范未来的研究并确保不同方法之间公平的比较。此外,我们深入讨论了几个高级话题,并强调了视觉定位的许多应用。在数据集部分,我们编制了当前相关数据集的列表,同时在 RefCOCO/+/g 系列数据集上进行了公平的比较分析,并提供了最终的性能预测,以启发未来新的标准测试基准的提出。最后,我们总结了视觉定位当前所面临的挑战,并为未来的研究提出有价值的方向,这可能为后续的研究人员提供启发。本综述通过提取常见的技术细节的方式进行叙述,进而以涵盖过去十年中每个子主题的代表性工作。据我们所知,本文是目前视觉定位领域最全面的综述。本文不仅使适用视觉定位的入门研究者,也适用于资深的研究人员用于跟踪最新的研究进展。

二、视觉定位任务介绍、发展历史和研究现状

人工智能领域中,视觉感知和自然语言理解的多模态融合学习已经成为在机器中实现类人认知的关键。其核心是视觉和语言线索的融合,旨在弥合图像场景与语言表达之间的语义鸿沟。而视觉定位,代表了这样一种基本的目标,其包括人工智能模型在语言描述和相应的视觉元素之间建立内在联系的能力。

图片

                                         图 1. 视觉定位任务简要示意图

图 1 是视觉定位的简要的示意图。视觉定位(Visual Grounding),也被称作指代表达理解(Referring Expression Comprehension),依据传统的定义,是指在一副图像中依据一个给定的指代表达句子定位出一个具体的区域。这一任务的目的是模拟社交对话中最常见的指代关系,使机器具备类人的多模态理解能力。因此,他可以广泛应用于人机对话、视觉语言导航、视觉问答当中。

数据、算法、算力是当今深度学习不断进化的三大要素,对于视觉定位来说也不例外。从数据的角度上看,定位任务涉及了三种基本数据,即,图像,指代表达文本,以及指代的边界框,同时,这三种数据需要构成配对的三元组数据对。在这三种数据中,图像是比较常见的,然而,指代表达文本和配对的边界框却并不容易获取。第一,视觉定位作为指代表达生成(Referring Expression Generation,REG)的逆过程,获得指代表达文本数据是视觉定位的基础,因此早期的视觉定位受 REG 任务的影响比较大。虽然指代表达在日常对话中无处不在,但获取有价值的指代表达并不是易事。类似于图像描述(Image Captioning)生成,作为一个经典的 NLP 问题,大概从 1970 年代起,就有大量的关于区域信息描述的指代表达生成的工作出现。在 1975 年,Paul Grice 提出自然语言对话交互的合理性原则,称之为 Gricean Maxims。这一准则对应到真实复杂场景下描述一个物体时,则需要满足三点:信息性,简洁,和不模糊性(informative, concise, and unambiguous)。其中,不模糊性(unambiguous)对于指代表达文本来说是尤其重要的,因为在真实的场景中通常会存在许多同类别的物体。如果表达不具备不模糊性,那模型并不能从数据中学到有价值的信息,反而会使模型产生困惑。因此,在获得有效的不模糊性表达之前,视觉定位模型都难以进行学习。正因为此,如图 6 所示,在 204 年之前,大量的工作都主要集中在指代表达生成上,而很少专注于定位的工作出现。第二,配对的边界框同样也是耗费人力的标注信息。在 2013 年之前,由于缺乏与指代表达句子配对的边界框,大量的工作都以弱监督的设置为主。在 2014 年,随着 Kazemzadeh 等人提出了第一个基于真实世界图片的大规模指代表达理解的数据集 ReferIt Game,全监督的视觉定位才逐步面向更真实的场景。然而,由于 ReferIt Gmae 数据集的图片中的类别较为单一、指代文本太过简单,从而难以满足不模糊性的要求。因此,在 2016 年,Mao 等人基于 MS COCO 图像数据集提出了 RefCOCOg 数据集。由于该数据集存在验证集和训练集图片泄露的问题,在同年,Nagaraja 等人对该数据集进行重新划分为 RefCOCOg-umd 数据集。在 2016 年同年,Yu 等人同样基于 MSCOCO 提出了 RefCOCO 和 RefCOCO + 数据集。

图片

                                        图 2. RefCOCO/+/g 数据集差异对比及统计信息

如图 2 为 RefCOCO/+/g 数据集的差异对比及统计信息样例。其中,RefCOCO 以简单的空间方位关系为主(如,左右、前后),RefCOCO + 中禁止使用空间方位词而更关注物体的外观(如,颜色、大小等),RefCOCOg 则使用更为复杂的句子。RefCOCO/+/g 这三个数据集的出现奠定了后续视觉定位任务的坚实基础,同时也成为后续近十年来的标准基准。从那以后,大量的视觉定位工作开始喷涌而出。

随着时间的推移,在 2021 年,Kamath 等人将主流的细粒度检测数据集进行混合,同时将定位任务作为一个调制的检测任务,定位的预训练数据得到进一步的扩大,从而使得视觉定位的性能有了进一步的提升。随后,随着 2021 年预训练范式的出现(如,VLP 和 MLLMs),近些年也涌现出了更大规模的细粒度数据集,如 GRIT 等,不断的推进视觉定位任务走向新的高峰。

图片

                                     图 3. 视觉定位的五种技术路线及近十年发展中的几个主要阶段

从算法和算力的角度,视觉定位的研究在受深度学习主流算法和算力的影响也在不断的演化。如图 3 所示,依据深度学习算法的发展,我们大致可以将视觉定位的研究分成三个阶段,2014 年以前为初期,2014 年至 2020 年为早期,2021 至今为高速发展的时期。在 2014 年以前,视觉定位作为一个验证任务用于辅助 REG,那时还并未成体系。那时的方法主要是通过一些 NLP 语言解析的手段在弱监督的设置下对 proposal 进行选择。在 2014 至 2020 年期间,视觉定位在算法上主要是通过以小规模的 LSTM 网络对语言进行编码,通过 CNN 网络对图像进行编码,再基于二阶段或一阶段方式实现定位结果。已有的综述中,Qiao 等人对此时期的工作在方法上进行了总结。然而,在 2021 年之后,随着 Transformer 的提出,LSTM 和 CNN 方法逐渐被摒弃。同时,随着预训练模型的发展,预训练再微调成为下游迁移的基础范式。此时,单模态预训练模型(如 Bert,DETR 等)和多模态预训练模型(如,CLIP)开始应用在视觉定位当中。在此期间,各种各样的设置,如全监督、弱监督、零样本等等,开始涌现。此外,随着算力的突飞猛进,预训练中的模型和数据越来越大,深度学习的尺度法则(Scaling Law)在视觉定位中也得到体现。在 2023 年,随着大语言模型、多模态大语言模型在尺度规律的加持下表现出惊人的效果之后,定位多模态大语言模型(GMLLMs)如雨后春笋一般,在短短 1 年多时间涌现了大量的代表性工作,如 LION, Ferret 等等。

图片

                                       图 4. 视觉定位任务近十年发展趋势

如图 4 所示为视觉定位任务这十年来在论文数量和 RefCOCO 数据集性能上的增长趋势。视觉定位任务从 2014 以来,经历了高速发展的近 10 年,其中论文数量上 2024 年论文比 2021 年增长了近 3 倍,同时数据集的性能也趋近于极限。尽管这一领域发展如此迅速,当前也积攒了许多的问题。首先,各种设置层出不穷、定义混乱。具体来说,由于视觉定位中三元组数据对获取的复杂性,以及在各种预训练模型的加持下,从 2021 年以来涌现了各种各样的设置,包括全监督、无监督、半监督、弱监督、零样本设置等等。然而,这些设置中,存在定义不清楚和设定混乱,从而产生许多不公平的比较。比如,全监督设置中,存在采用混合数据集预训练的模型和单数据集微调的工作进行直接比较,采用大规模预训练模型的工作直接和采用单模态检测预训练模型的工作进行直接比较。此外,弱监督设置常常被定义为零样本设置,无监督设置和弱监督设置也存在定义模糊,等等问题。然而,这些问题至今没有相关的工作对此有过系统的梳理和总结。第二,数据集受限,未来的发展方向不够明确。具体来说,RefCOCO 系列数据集提出已近 10 年,当前依然是核心的评价基准。然而,这一数据集从性能上已经快接近极限,这导致新的工作的性能增益有限。同时,随着大语言模型的出现,已有的数据集已经不能满足基本任务的设定。比如说,现有的数据集是定位出一个物体,然而,某种程度上,依据视觉定位的概念,如图 5 所示,数据集应该要满足三种情况,即(1)定位 1 个物体、(2)定位多个物体、(3)定位无物体。

图片

                                      图 5. 广义视觉定位示意图

第三、缺乏一个系统性的回顾,以便对已有的工作进行总结归纳,并对未来的发展做出指引。由于当前论文过多,导致大量最新的工作对已经存在的类似 idea 的工作都没有进行充分的引用和对比,这些论文在投稿时审稿人也难以辨别优劣。Qiao 等人对 Visual Grounding 做了一个技术总结,然而,其总结的工作主要集中在 2019 年以前。从 2019 年至今,已经 5 年过去,多模态的研究局面已经发生了巨大的变化,视觉定位任务已经涌现了大量的工作,早已与此前的情况大不相同。因此,此时非常急迫需要有一篇视觉定位综述对最近的工作做一个总结,并给未来的研究方向指明新的方向。

三、综述流程

本文的提出,就是为了对视觉定位过去十年的发展做一个总结,并及时解决上述在视觉定位发展过程中累积的问题。图 6 为该综述的论文结构。

图片

                                     图 6. 视觉定位综述论文结构

具体来说,在该综述中,在第 1 章简要地回顾了视觉定位的发展历史和当前存在的问题。在第 2 章中,研究者将介绍背景知识,包括基本的任务定义、评价标准和强相关的研究领域。除了图 1 所示的经典视觉定位之外,作者还重点介绍了近期的一种新型设置:广义视觉定位。如图5所示,在广义视觉定位的定义之下,定位任务打破了传统一个文本必然定位一个物体的强假设限制,从而转为需要定义自然数个物体(即,一个,多个,和零个物体)。

图片

                                     图 7. 当前主流视觉定位设置差异对比示意图

随后,在第 3 章中,研究者将从任务设置的视角出发,分别从全监督、弱监督、半监督、无监督、零样本、广义视觉定位新型设置等 6 个方面对当前的研究进行系统性回顾,并比较了不同任务设置下基准测试的结果。图 7 是当前主流视觉定位设置在监督信息上的差异对比示意图。

图片

                                       图 8. 传统视觉定位中一阶段和二阶段处理流程对比

图片

                                      图 9. 全监督视觉定位的五种代表性模型框架

图片

                                     论文表 2. 全监督视觉定位按三种实验设置进行划分的 SoTA 结果对比

在上述这些设置中,特别是全监督设置,其作为主流的设置在论文第 3 章中进行了重点介绍。在技术路线上,如图 3 所示,作者将现有的技术路线分为 5 大类,分别是传统基于 CNN 检测器的方法,传统基于 Transformer 的方法,基于 VLP 模型的方法,定位导向的预训练方法,以及在 2023 年涌现的定位多模态大语言模型的方法。针对传统基于 CNN 检测器的方法,如图 8 所示,作者首先介绍在传统 CNN 时期的一阶段视觉定位和二阶段视觉定位的处理流程。随后,如图 9 所示,作者在这一章中,分析概括了现有全监督视觉定位的五种代表性模型框架(即,2 个模态编码器 + 1 个融合编码器,2 个模态编码器 + 1 个融合编码器 + 1 个解码器,仅 2 个模态编码器结构,单塔编码器结构,以及当前的定位多模态大语言模型结构)。此外,如图论文表 2 所示,作者还对现有的全监督设置在数据集的使用上划分出四种实验大类设置已进行公平的比较,分别是基于单模态预训练的闭集检测器和语言模型的单数据集微调,基于自监督多模态视觉语言预训练模型的单数据集微调,基于多数据集混合的中间预训练设置,以及定位多模态大语言模型。

图片

                                   论文表 5 零样本视觉定位设置的 4 种子设置

图片

                                       图 10. 全监督视觉定位、传统零样本视觉定位和开放词汇零样本视觉定位对比

在第 3 章节的零样本部分,为了规范当前的研究,如论文表 5 所示,作者将零样本设置分成 4 种情况,分别是(a)定位新类物体和未见过的名词短语,(b)开放词汇的视觉定位,(c)基于预训练模型和已有 Proposal 情况下的免微调 / 免训练学习,(d)在预训练模型基础上免 proposal 和免微调的直接定位。如图 10 所示为全监督设置、传统零样本设置和开放词汇视觉定位设置的语义示意图。

图片

                                      图 11. NLP 自然语言解析在视觉定位中的应用

随后,作者在第 4 章讨论了一些与设置无关的进阶技术。包括 NLP 结构解析在视觉定位中的应用(如图 11 所示),场景图和图神经网络在视觉定位中的应用,以及模块化定位技术等等。

在第 5 章中,作者介绍了视觉定位的一些应用场景,包括定位式物体检测,指代定位计数,遥感视觉定位,医疗视觉定位,3D 视觉定位,视频物体定位,以及机器人和多智能体应用等等。

最后,作者在第 6 章中介绍了已有的经典数据集和新型定位数据集,在第 5 章指出当前的挑战和未来的发展方向,并在第 6 章中进行了总结。

四、贡献

这一综述的贡献可概括为如下五点:

  • (i) 本文是近五年来第一个系统跟踪和总结近十年视觉定位发展的综述。通过提取常见的技术细节,本综述涵盖了每个子主题中最具代表性的工作。

  • (ii) 本文根据视觉定位中出现的各种各样的设置做了系统的梳理,并对各种设置做了严格的定义,用以规范后续视觉定位的研究,以便获得公平公正的比较。

  • (iii) 本文对近些年的数据集进行了整理,并对视觉定位中五个经典的数据集进行了极限预测,以启发新的标准基准的出现。

  • (iv) 本文对当前的研究难点进行了总结,并对后续的视觉定位的研究提供了有价值的研究方向,用以启发后续研究者的思考。

  • (v) 据我们所知,这篇综述是目前在视觉定位领域最全面的综述。作者希望本文不仅可以助力于新手入门 Grounding,也希望可以帮助有一定研究基础的人对当前的研究进行梳理,使他们能够跟踪并对最新的进展保持了解。

最后,由于视觉定位领域正在迅速发展,本文可能不可能跟上所有最新的发展。作者欢迎研究人员与他们联系,与他们分享在这一领域的新发现,以便本文可跟踪最新进展。这些新的工作将被纳入修订版本并进行讨论。同时作者也会更新和维护论文的项目仓库:https://github.com/linhuixiao/Awesome-Grounding。

相关资讯

搞 AI,孩子必须学好数学:马斯克 Altman 罕见达成一致,LeCun / Jeff Dean 等 31 位大佬签署联名信

【新智元导读】基础数学已经被拔高到研究 AI 的必经之路!UC 伯克利教授发起最新倡议,31 位 AI 大佬共同签署联名信,马斯克和 Altman 竟达成一致。就在刚刚,UC 伯克利 EECS 教授 Jelani Nelson 联合发起了一个倡议,强调「坚实的数学基础对人工智能至关重要」。地址:「虽然 Elon Musk 和 Sam Altman 最近在很多问题上都有分歧,但他们都认同,AI 的构建是以代数和微积分等坚实的数学基础为支撑的。」目前,已经有 31 位业内大佬在上面签署了自己的名字。要想搞好 AI,就必

NeurIPS 2024 Workshop 科学基础模型: 进展, 机遇, 挑战

Workshop背景人工智能 (AI) 和机器学习 (ML) 在科学领域的应用代表了传统科学发现方法的重大转变。几个世纪以来,探索自然世界的过程遵循着系统和逻辑的方法。然而,人工智能和机器学习技术的出现,正在深刻改变现代基础科学的发现方式。这种变化对于促进跨学科交流、激发创新的解决方案,并最终提高科学界应对现代科学中最紧迫和复杂问题的能力至关重要。与此同时,经过大量多样化数据集训练的基础模型,在计算机视觉和自然语言处理等任务中展示了强大的适应性。这些模型,例如语言模型 GPT-4 和图像文本处理模型 CLIP,通过

AI加速优化求解,达摩院连续两年获求解器全国赛事冠军

以“AI 优化求解器”助力能源绿色转型,达摩院自研“敏迭”求解器连续获得权威赛事冠军。 1月17日消息,达摩院自主研发的“敏迭”求解器在工信部产业发展促进中心组织的第二届能源电子产业创新大赛上,再次斩获“国产求解器技术专题赛”冠军。 这是继近期入选工信部“人工智能赋能新型工业化”典型应用案例后的又一殊荣。