援用表示分隔(Referring Expression Segmentation,简称援用分隔或RES)是一个基础的视觉语言多模态工作。给定一张图象和一个描述该图象中某个东西的自然语言表示式,RES旨在找到该方向东西并将其分隔。现有的援用分隔数据集和格式通常仅支持单方向表示式,即一个表示式指代一个方向东西。而对于多方向和无方向表示式的情况,则没有考虑在内。严重限制了援用分隔的实际应用。
基于这个问题,来自新加坡南洋理工大学的研究者们定义了一个名为狭义援用分隔(Generalized Referring Expression Segmentation,GRES)的新工作,将典范的援用分隔扩展到允许表示式指代任意数量的方向东西。同时,文章还构建了第一个大规模的GRES数据集gRefCOCO,其同时包括多方向、无方向和单方向表示式。
论文地址:https://arxiv.org/abs/2306.00968
项目主页:https://henghuiding.github.io/GRES/
RES在图形编辑、视频制作、人机交互和机器人等众多应用领域具有巨大潜力。目前,大多数现有格式都遵循在知名数据集ReferIt和RefCOCO中定义的RES规则,并在近年来取得了巨大进展。然而,大多数典范的援用分隔格式对工作有预定义的强约束:
传统的RES不考虑无方向表示式,即在图象中没有匹配东西的自然表示语句。这意味着如果语句描述的方向在输出图象中不存在,现有的RES格式的行为是未定义的。在这种假设下,输出表示式必须与图象中的某个东西匹配,否则会不可避免地出现错误。大多数现有数据集,例如最流行的RefCOCO,几乎不包括多方向表示式,即在一句话中同时指向多个方向物体的表示式。这意味着如果需要同时查找多个方向,用户需要分多次键入查询指令且每次只能指向一个方向物体。
图1:援用分隔的实例,使用“The kid in red”来指示并分隔图片中的红衣服小男孩
新工作:狭义援用表示式分隔
在文章中,为了解决传统RES存在的问题,研究者们提出了一个名为狭义援用表示分隔(Generalized Referring Expression Segmentation,简称GRES或狭义援用分隔)的新工作,允许表示式指向任意数量的方向东西。与典范的RES类似,GRES接受一张图象和一句自然语言表示式作为输出。但与传统RES不同,GRES进一步支持了多方向表示式,即在单个表示式中指定多个方向东西,例如图2中的“Everyone except the kid in white”,以及无方向表示式,即表示式没有指向图象中的任何东西,例如图2中的“the kid in blue”。GRES为输出表示式提供了更大的灵活性,可以更好地支撑援用分隔的实际应用。
图2:多方向表示式和无方向表示式示例
新数据集:gRefCOCO
然而,现有的几个援用表示数据集,如RefCOCO系列,几乎不包括多方向表示式或无方向表示式样本,只有单方向表示式样本,如表1所示。
表1:gRefCOCO与其他援用表示式数据集的比较
为了促进对GRES的研究工作,本文构建了新的大规模援用分隔数据集gRefCOCO。它进一步包括多方向表示式和无方向表示式。该数据集共有278,232个表示式,其中包括80,022个多方向表示式和32,202个无方向表示式,涉及19,994张图象中的60,287个不同物体。
gRefCOCO数据集的多方向表示式主要有以下难点:
计数表示式:处理包括计数的表示式,需要区分基数词和序数词,如“two”和“second”,并具备东西计数能力。复合句结构:理解复合句结构中的多个元素之间的干系,包括“A and B”、“A except B”和“A with B or C”。如图3中的第一个表示式。属性的范围:要处理多方向表示式中的不同方向之间的属性共享或差异,需深入理解各个属性以及它们与相应东西之间的干系。繁杂干系:多方向表示式中的干系描述更繁杂,需要理解并推断方向之间的干系,例如通过关键词“and”来指示方向数量。模型需对图象和表示式中的所有实例及其相互作用有深入理解。如图3中的第二个表示式,使用了繁杂的句子来表示方向与非方向之间的干系。
图3:gRefCOCO样本示例
无方向表示式的构建主要遵循两个原则:
表示式不能与图象完全无关。例如,给定图1中的图象,“the kid in blue”是可以接受的,因为图象中确实存在“kid”和“blue”,但没有一个“kind in blue”。但是像"狗"、"汽车"、"河流"等与该图象中的任何内容都完全无关的表示式是不可接受的。如果规则1中所要求的表示式很难想出,标注员可以选择从RefCOCO同一split中的其他图象中选取具有迷惑性的表示式。
新模型:ReLA
GRES中多方向表示式中的干系和属性描述更加繁杂。与典范的援用分隔(RES)相比,对于狭义援用表示分隔(GRES)来说,更具挑战性的是对图象中地区之间的繁杂交互干系进行建模,并捕捉所有东西的细粒度属性。本文提出了一个新的基准模型ReLA,明确地对图象的不同部分和表示式中的不同单词进行信息交换和相互作用,以分析它们之间的依赖干系。通过这种方式,我们能够更好地理解图象和表示式之间的繁杂交互。
所提出的干系(ReLAtionship)建模格式具有两个主要模块,即地区-图象交叉注意力(Region-Image Cross Attention,RIA)和地区-语言交叉注意力(Region-Language Cross Attention,RLA)。RIA模块灵活地收集地区图象特征,而RLA模块则捕捉地区之间的干系以及地区与语言之间的依赖干系。通过这两个模块,我们能够更好地建模图象和表示式之间的繁杂交互,并提高援用表示分隔的性能。
实验
根据GRES工作的特性,文章提出了新的测评指标:gIoU、N-acc、T-acc,分别用来衡量整体分隔性能、正确识别无方向表示式的性能、和无方向表示式对援用分隔的影响。
提出的基准格式ReLA在GRES和传统单方向RES上均取得了最佳性能。这证明了显式建模不同图象地区和词语之间的干系对援用分隔的有效性。
对多方向表示式的分隔结果可视化如下:
对无方向表示式的分隔结果可视化如下:
总结
本文分析并解决了典范援用分隔(RES)工作的局限性,即无法处理多方向和无方向表示式。基于此,本文定义了一个名为狭义援用表示分隔(GRES)的新工作,允许表示式中包括任意数量的方向。为支持GRES的研究,本文构建了一个大规模的数据集gRefCOCO、提出了基准格式ReLA,用于显式建模不同图象地区和词语之间的干系。该格式在典范的RES工作和新提出的GRES工作上取得了最佳结果。GRES降低了对自然语言输出的限制,扩大了援用分隔的应用范围,如多实例和无正确东西的情况,期待GRES能够打开了新的应用领域。
更多细节,敬请参考论文原文。项目主页:https://henghuiding.github.io/GRES/