告别逐一标注,一个提醒实现批量图片肢解,高效又准确

仅需一个义务形貌,即可一键肢解任何图片!Segment Anything Model (SAM) 的提出在图象肢解领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地肢解出目的物体的位置,每张图片都需要手动供应一个独特的视觉提醒。如下图所示,即使点击的是同一物体(图 (b)-(d)),微小位置变化都会导致肢解结果的显著差异。这是因为视觉提醒缺乏语义信息,即使提醒在想要肢解的目的物体上,仍然可能引发歧义。框提醒和涂鸦提醒(图 (e)(f

仅需一个义务形貌,即可一键肢解任何图片!

Segment Anything Model (SAM) 的提出在图象肢解领域引起了巨大的关注,其卓越的泛化性能引发了广泛的兴趣。然而,尽管如此,SAM 仍然面临一个无法回避的问题:为了使 SAM 能够准确地肢解出目的物体的位置,每张图片都需要手动供应一个独特的视觉提醒。如下图所示,即使点击的是同一物体(图 (b)-(d)),微小位置变化都会导致肢解结果的显著差异。这是因为视觉提醒缺乏语义信息,即使提醒在想要肢解的目的物体上,仍然可能引发歧义。框提醒和涂鸦提醒(图 (e)(f))虽然供应了更具体的位置信息,但由于机器和人类对目的肢解物的理解存在偏差,效果常常与期望有所出入。

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

目前的一些要领,如 SEEM 和 AV-SAM,通过供应更多模态的输入信息来导致模型更好地理解要肢解的物体是什么。然而,尽管输入信息变得更加具体和多样化,但在实际场景中,每个无标注样本仍然需要一个独特的提醒来作为指导,这是一种不切实际的需求。理想情况下,作家希望告知机器当前的无标注数据都是采集自于什么义务,然后期望机器能够批量地按照作家的要求对这些同一义务下的样本举行肢解。然而,当前的 SAM 模型及其变体受到必须为每幅图手动供应提醒这一要求的限制,因此很难实现这一点。

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

来自伦敦大学玛丽女王学院的研究者们提出了一种无需训练的肢解要领 GenSAM ,能够在只供应一个义务通用的文本提醒的条件下,将义务下的任何无标注样本举行有效地肢解。

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

论文链接:https://arxiv.org/pdf/2312.07374.pdf

项目链接:https://lwpyh.github.io/GenSAM/

代码链接:https://github.com/jyLin8100/GenSAM/

问题设置

对于给定的肢解义务,例如假装样本肢解,对于该义务下来自各个数据集的任何无标注样本,只供应一个义务形貌:“the camouflaged animal” 作为这些图片的唯一提醒 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 。对于该义务下的任意一张图象 告别逐一标注,一个提醒实现批量图片肢解,高效又准确,需要利用 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 来有针对性地完成与义务相关的目的的肢解。在这种情况下,目的是根据义务形貌准确地肢解图象中假装的动物。模型需要理解并利用供应的义务形貌来执行肢解,而不依赖于手动供应每个图象的特定提醒。

这种要领的优势在于,通过供应通用义务形貌,可以批量地处理任何相关义务的无标注图片,而无需为每个图片手动供应具体的提醒。这对于涉及大量数据的实际场景来说是一种更加高效和可扩展的要领。

GenSAM 的流程图如下所示:

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

要领介绍

为了解决这一问题,作家提出了 Generalizable SAM(GenSAM)模型,旨在摆脱像 SAM 这类提醒肢解要领对样本特定提醒的依赖。具体而言,作家提出了一个跨模态思维链(Cross-modal Chains of Thought Prompting,CCTP)的概念,将一个义务通用的文本提醒映射到该义务下的任何图片上,生成个性化的感兴趣物体和其布景的共鸣热力争,从而获取可靠的视觉提醒来导致肢解。此外,为了实现测试时自适应,作家进一步提出了一个渐进掩膜生成(Progressive Mask Generation,PMG)框架,通过迭代地将生成的热力争重新加权到原图上,导致模型对可能的目的区域举行从粗到细的聚焦。值得注意的是,GenSAM 无需训练,任何的优化都是在实时推理时实现的。

跨模态思维链 

Cross-modal Chains of Thought Prompting (CCTP)

随着大规模数据上训练的 Vision Language Model (VLM) 的发展,如 BLIP2 和 LLaVA 等模型具备了强大的推理能力。然而,在面对复杂场景,如假装样本肢解时,这些模型很难准确推理出复杂布景下义务相关物体的身份,而且微小提醒变化可能导致结果显著差异。同时,目前的 VLM 只能推理出可能的目的形貌,而不能将其定位到图象中。为了解决这一问题,作家以现有义务形貌 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 为基础构建了多个思维链,希望通过从多个角度获取共鸣来推理第 j 个链上前景物体的关键词 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 和布景的关键词 告别逐一标注,一个提醒实现批量图片肢解,高效又准确

然而,当前大多数求取共鸣的要领基于一个假设:VLM 的输出结果是有限的,可以通过多数表决来确定正确答案。在作家的场景中,链路数量是有限的,而输出结果是无法预测的。过去的多数表决要领在这里难以应用。此外,VLM 只能推理出可能目的的关键词,而不能将其准确定位于图象中。

为了克服这一问题,受到 CLIP Surgery 的启发,作家提出了一个 spatial CLIP 模块,在传统的 CLIP Transformer 基础上添加了一个由 K-K-V 自注意力机制构成的 Transformer 结构,将 VLM 在不同链路上推理得到的不可预测的关键词映射到同一张热力争上。这样,无法在语言层面求取共鸣的问题可以在视觉层面上得到解决。具体而言,作家通过 Spatial CLIP 的共鸣特征 告别逐一标注,一个提醒实现批量图片肢解,高效又准确告别逐一标注,一个提醒实现批量图片肢解,高效又准确 分别获取不同链路上的前景和布景关键词。由于复杂场景中布景物体可能对结果产生干扰,作家通过用 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 减去 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 来排除这种干扰,得到最终的相似度热力争 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 。$SI$ 通过上采样到原有图片的大小,即获取了定位义务相关目的位置的热力争 H 。其中,具有很高和很低置信度的点分别被视为正和负提醒点,它们被筛选出来用于导致 SAM 举行肢解。

渐进掩膜生成 

Progressive Mask Generation (PMG)

然而,单一的推断可能无法供应令人满意的肢解结果。对于具有复杂布景的图象,热图中某些布景对象可能也会在很大程度上被激活,导致在推断点提醒时出现一些噪声。为了获取更强大的提醒,作家使用热图作为视觉提醒,对原始图象举行重新加权,并在测试时导致模型举行适应。加权图象 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 可以通过下面的公式获取:

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

这里 X 是输入图片,$w_{pic}$ 是权重,$H$ 是热力争。此外,在随后的迭代中,作家使用前一次迭代的掩码通过绘制边界框来导致肢解,作为后处理步骤。作家选择与掩码具有最高 IoU(交并比)值的框作为作家的选择。这优化了当前迭代并提高了肢解结果的一致性。第 i 次迭代获取的掩码被定义为 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 ,其中 i ∈ 1,…,Iter。Iter 被设定为 6。为了消除由每次迭代中不一致提醒引起的歧义的影响,每次迭代中获取的掩码被平均。最后,通过选择在任何迭代中最接近平均掩码的迭代结果来确定所选迭代 告别逐一标注,一个提醒实现批量图片肢解,高效又准确 :

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

告别逐一标注,一个提醒实现批量图片肢解,高效又准确 就是 X 的最终肢解结果。

实验

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

作家在假装样本肢解义务上的三个不同数据集上举行了实验,并分别与点监督和涂鸦 (scribble) 监督下举行训练后的要领举行了比较。GenSAM 不仅比基线要领相比取得了长足的进步,还再更好的监督信号和完全没有训练的情况下,取得了比弱监督要领类似甚至更好的性能。

作家还进一步举行了可视化实验,分析不同 iter 下的肢解结果,首先是在 SAM 处理不佳的假装样本肢解义务上举行了评估:

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

此外,为了验证 GenSAM 的泛化性,还在阴影肢解和透明物体肢解上举行了可视化实验,均取得了出色的性能。

告别逐一标注,一个提醒实现批量图片肢解,高效又准确

总结

总的来说,GenSAM 的提出使得像 SAM 这类提醒肢解要领能够摆脱对样本特定提醒的依赖,这一能力为 SAM 的实际应用迈出了重要的一步。

给TA打赏
共{{data.count}}人
人已打赏
工程

模型A:幸亏有你,我才不得0分,模型B:俺也一样

2024-1-8 11:51:00

工程

首个无师自通、泛化运用各种家具家电的具身三维图文大模型系统

2024-1-9 14:49:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索