最近,多模态大模型(LMM)获得了一系列引人注目的成就,特别是在视觉 – 语言任意上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。
尽管如此,在将 LMM 应用到计算机视觉任意上时,我们仍面临一个关键挑战:大多数 LMM 目前只限于文本输入,这限制了它们在处理更细粒度的视觉任意,如图象朋分方面的本领。
此外,图象朋分领域内部的需求多样化,任意各异 —— 实例朋分需为每个对象分配唯一 ID 并计算种别信赖度,指代朋分(RES)则需要基于描述性语句来识别图象中的特定区域,而交互式朋分的输入可能包括点、线、边界框或掩码。这些不同的输入和输入格式如何能够被 LMM 高效地分裂和处理,目前仍然是一个封闭性问题。
华中科技大学的研究团队针对多模态大模型(LMM)在视觉任意中的应用挑战,推出了针对性的解决方案:PSALM 模型。这一模型的设计理念是:通过一个分裂的框架处理绝大多数类型的图象朋分任意,从而实现朋分任意的全面覆盖。
同时,得益于多模态大模型广泛的预训练,PSALM 不仅在已见朋分任意上表现出色,更在诸多未曾训练过的封闭场景朋分任意中,展现出强大的零样本泛化本领。多模态大模型作为视觉任意分裂框架的巨大潜力获得进一步挖掘。
PSALM 有如下的特点:
参数优化:PSALM 采用了 Swin-Base 结合 Phi-1.5(1.3B 参数)的模型组合,这比传统的 ViT-L 和 Vicuna-7B/Llama2-13B 模型要小巧得多,实现了效率与功能的兼备。
多任意分裂:得益于 PSALM 灵活的结构设计,模型能够将多种朋分任意的输入形式进行分裂,并支持多任意的联合训练,最终获得相互促进的效果。
功能优异:PSALM 不仅在全景朋分、交互式朋分、指代朋分等多个已见朋分任意上展现出比肩或超越专家模型的强大功能,还在封闭词表、视频宗旨朋分等未见封闭场景任意中表现出令人瞩目的零样本泛化本领。
目前,模型和训练代码已全部开源。
论文标题:PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model
论文地址:https://arxiv.org/abs/2403.14598
代码地址:https://github.com/zamling/PSALM
模型地址:https://huggingface.co/EnmingZhang/PSALM
PSALM 如何实现的?
PSALM 包含图象编码器、大语言模型(LLM)和 mask 生成器,如上图所示。为了使得模型可以处理各种朋分任意,模型将 LLM 的输入分为四个部分:图片特性、任意指令提醒、任意前提提醒以及一组可学习的 mask tokens。
任意指令提醒包含当前朋分任意的一个简单任意描述。例如,对于全景朋分,任意指令提醒可以是:「请朋分出图片中所有的宗旨,下面是可能的种别名称」。任意前提提醒指的是当前朋分任意所需要的特有的信息。对于语义朋分、全景朋分等,所需要的即所有种别名称。模型直接简单地将种别使用逗号进行拼接,如「person, bicycle, car…」;对于指令朋分,任意前提提醒是当前所需朋分的物体的一段描述;对于更为复杂的交互式朋分,模型将点、线、框、掩码等各种提醒信息转换为掩码,并通过掩码池化的操作提取所指定的区域的特性,作为交互式朋分的任意前提提醒。
随后,获得 mask tokens 对应位置的输入,送入 mask 生成其中,获得 mask 的特性。该特性与任意前提提醒所对应的输入特性计算相似度获得置信度,与图象特性计算内积获得候选朋分结果。
最终,将置信度和候选朋分结果相结合,即可获得各种朋分任意的结果。各种任意类型如何生成特定的前提提醒和对应的前提特性可见下图。
PSALM 的效果如何?
对于指代朋分 (RES) 任意,也是目前已有的基于 LMM 的朋分模型所关注的任意,PSALM 在 RefCOCO、RefCOCO + 和 RefCOCOg 上的许多基准测试集上获得了 SOTA 的功能,详见下表。
在语义朋分、实例朋分、全景朋分等任意上,PSALM 在 COCO-val 上比较了现有的 SOTA 模型。对于采用类似规模的图象编码器的方法,PSALM 获得了极具竞争力的结果,甚至不弱于该任意上的专家模型。
对于交互式朋分任意,由于当前没有开源的交互式朋分数据集和测试基准。因此,在 COCO 的基础上,对其中的所有宗旨随机生成了各种交互提醒,最终生成了 COCO-Interactive 数据集。具体结果如下表所示,PSALM 在使用点,曲线,掩码作为提醒下,获得了 SOTA 的效果。在使用框作为提醒下,略弱于使用数据集 SA-1B 训练的 SAM。
PSALM 对于没有见过的任意,泛化本领如何?
PSALM 在封闭词表朋分、通用指代朋分、视频宗旨朋分以及多视角 Ego-Exo 匹配朋分任意上的零样本泛化本领同样令人印象深刻,这些结果展示了它对未知任意的适应性。
下图展示了 PSALM 在多个任意上的可视化结果包括全景朋分、指令朋分、交互式朋分、封闭词表实例朋分、通用指令朋分、视频宗旨检测和 Ego-Exo 多视角匹配朋分。
总结
PSALM 代表了多模态大模型在分裂图象朋分领域的一次积极探索,其在参数优化、功能展示以及泛化本领方面均获得了显著成果。PSALM 的创新架构和前提提醒机制,使其能够灵活处理多样化的输入输入需求,从而在各种基准任意中获得优异的成绩。