近年来,LLM 已经一统所有文本任意,展现了基本模型的弱小潜力。一些视觉基本模型如 CLIP 在多模态理解任意上同样展现出了弱小的泛化才智,其统一的视觉语言空间带动了一系列多模态理解、生成、盛开词表等任意的发展。然而针对更细粒度的宗旨级别的感知任意,目前依然缺乏一个弱小的基本模型。
为了解决这个问题,来自华中科技大学和字节跳动的研究团队提出了一个针对视觉宗旨的基本模型 GLEE,一次性解决图象和视频中的几乎所有宗旨感知任意。GLEE 支持根据随便盛开词表、宗旨的外观位置描写、和多种交互方式举行宗旨检测、宰割、追踪,并在实现全能性的同时保持 SOTA 性能。
此外,GLEE 还构建了统一优化宗旨的训练框架,从超过一千万的多源数据中汲取知识,实现对新数据和任意的零样本迁移。并验证了多种数据之间相互促进的才智。模型和训练代码已全部开源。
论文标题:GLEE: General Object Foundation Model for Images and Videos at Scale
论文地址:https://arxiv.org/abs/2312.09158
代码地址:https://github.com/FoundationVision/GLEE
Demo 地址:https://huggingface.co/spaces/Junfeng5/GLEE_demo
视频地址:https://www.bilibili.com/video/BV16w4m1R7ne/
1. GLEE 可以解决哪些任意?
GLEE 可以同时接受语义和视觉上的 prompt 作为输出,因此,随便长度的盛开词表、宗旨属性描写、宗旨位置描写都、交互式的 point,box,mask 都可以被作为 prompt 来指引 GLEE 检测宰割出随便宗旨。具体来说,盛开世界的宗旨检测、实例宰割、文本描写的指代检测与宰割(referring expression comprehension and segmentation)以及交互式宰割都可以被轻松实现。
此外,通过在超大规模的图象数据上举行训练,GLEE 学习到了更加有判别性的宗旨特征,直接对这些特征举行无参数的帧间匹配可以实现高质量的追踪,从而将 GLEE 的才智完全扩展到视频任意上。在视频任意中 GLEE 可以实现盛开世界的视频实例宰割(VIS),视频宗旨宰割(VOS),参考视频实例宰割(RVOS)以及交互式的视频宗旨宰割追踪。
2. GLEE 统一了哪些数据用来训练?
GLEE 使用了来自 16 个数据集的超过一千万图片数据举行训练,充分利用了现有的标注数据和低成本的自动标注数据构建了多样化的训练集,是 GLEE 获得弱小泛化性的根本原因。
GLEE 使用的数据根据标注类型可以分为四大类:1)基于词表的宗旨检测数据集,如 COCO、Objects365。2)基于宗旨描写的 grounding 数据集,如 RefCOCO 系列、VisualGenome。3)无类语义信息的 open-world 数据集,如 SA1B、UVO。4)视频数据,如 YouTubeVIS、OVIS。GLEE 所使用的图片超过 1 千万,其中标注宗旨数量超过一亿五千万。
3. GLEE 如何构成?
GLEE 包括图象编码器、文本编码器、视觉提示器和宗旨检测器,如图所示。文本编码器处理与任意相关的随便描写,包括宗旨类别词表、宗旨任何形式的名称、关于宗旨的标题和指代表达。视觉提示器将用户输出(如交互式宰割中的点、边界框或涂鸦)编码成宗旨对象的相应视觉表示。然后,这些信息被整合到一个检测器中,根据文本和视觉输出从图象中提取对象。
4. 在宗旨感知任意上的全能性和泛化才智
该研究展示了 GLEE 模型作为一个宗旨感知基本模型的普适性和有效性,它可以直接应用于各种以宗旨为中心的任意,同时确保最先进的性能,无需举行微调。
此外,该研究在一些盛开词汇表的视频任意中验证了 GLEE 的零样本泛化才智。在 TAO、BURST、LV-VIS 这三个盛开词汇表的追踪数据集上,GLEE 在未经过训练和微调的情况下,取得了令人惊叹的最先进(SOTA)性能,这证明了 GLEE 在大规模联合训练中学习到的通用对象感知才智和弱小的泛化才智。
5. 作为基本模型的潜力
作为基本模型,该研究用预训练且冻结的 GLEE-Plus 替换了 LISA 的中使用的 SAM backbone,并将 GLEE 的 Object Query 输出到 LLAVA 中,移除了 LISA 的解码器。该研究直接将输出的 SEG 标记与 GLEE 特征图举行点积运算以生成 Mask。在举行相同步数的训练后,修改后的 LISA-GLEE 取得了与原版 LISA 使用 SAM 相媲美的结果,这证明了 GLEE 的表示具有多功能性,并且在为其他模型服务时的有效性。