物体定位作为计算机视觉的基本问题,可以为场景理解、自动驾驶、智能诊疗等领域提供重要的标的位置信息。然而,物体定位模型的训练依赖于物体标的框或物体掩模等密集标注信息。这些密集标签的获取依赖于对图象中各像素的类型判断,因此极大地增加了标注进程所需的时间及人力。
为减轻标注工作的负担,弱监视物体定位 (WSOL) 通过利用图象级标签(如图象类型)作为监视信号从事物体定位模型的训练,以摆脱训练进程对像素级标注的需求。该类办法大多采用分类激活图 (CAM) 的流程训练一个图象级特色分类器,而后将该分类器作用于像素级特色获得物体定位结果。但是图象级特色通常保有充足的物体信息,仅识别其中具有鉴别性的物体特色即正确分类图象。因此,在将该分类器作用于在所含物体信息并不充足的像素级特色从事物体定位时,最终获得的定位图往往只能感知到部分物体区域而非整个物体。
为解决这一问题,本文将基于 CAM 的弱监视物体定位进程看作是一个特殊的域自顺应任务,即在包管在源图象级特色域上训练的分类器应用在标的像素域时仍具有良好的分类表现,从而使其更好的在测试进程中从事标的定位。从这一视角来看,我们可以很自然的将域自顺应办法迁移到弱监视物体定位任务中,使得仅依据图象标签训练的模型可以更为精准的定位标的物体。
文章地址:https://arxiv.org/abs/2203.01714
项目地址:https://github.com/zh460045050/DA-WSOL_CVPR2022
目前,这项研究已被 CVPR2022 接收,完整训练代码及模型均已开源。主要由北大分子影像/医学智能实验室朱磊和字节跳动佘琪参与讨论和开发,北大分子影像/医学智能实验室卢闫晔老师给予指导。
办法
图 1 – 办法整体思想
弱监视物体定位实际上可以看作是在图象特色域(源域 S)中依据图象级标签(源域金标 Y^s)完全监视地训练模型 e(∙),并在测试进程中将该模型作用于像素特色域(标的域 T)以获取物体定位热力求。总的来看,我们的办法希望在此进程中引入域自顺应办法从事辅助,以拉近源域 S 与标的域 T 的特色疏散,从而增强在模型 e(∙)对于标的域 T 的分类效果,因此我们的丧失函数可以表示为:
其中 L_c 为源域分类丧失,而 L_a 则为域自顺应丧失。
由于弱监视定位中源域和标的域分别为图象域和像素域,我们所面临的域自顺应任务具有一些独有的性质:①标的域样本与源域样本的数量并不平衡(标的域样本是源域的 N 倍,N 为图象像素数);②标的域中存在与源域标签不同的样本(背景像素不属于任何物体类型);③标的域样本与源域样本存在一定联系(图象特色由像素特色聚合而获得)。为了更好地考虑这三个特性,我们进而提出了一种域自顺应定位丧失(DAL Loss)作为 L_a (S,T)以拉近图象域 S 与像素域 T 的特色疏散。
图 2 – 弱监视定位中源域标的域的划分以及其在弱监视定位中的作用
首先,如图 2-A,我们将标的域样本 T 进一步分为三个子集:①“伪源域样本集 T^f”表示与源域特色疏散相似的标的域样本;②“未知类样本集 T^u”表示类型在源域中不存在的 l 标的域样本;③“真实标的域样本集 T^t”表示其余样本。依据这三个子集,我们提出的域自顺应定位丧失可以表示为:
从上述公式可以看到,在域自顺应定位丧失中,伪源域样本被看作源域样本的补充而非标的域样本,以解决样本不平衡问题。同时,为了减少具有源域未知类型的样本 T^U 对分类准确率的干扰,我们仅使用传统自顺应丧失 L_d(如最大均值差异 MMD)拉近扩增后的源域样本集 S∪T^f 与真实标的域样本集 T^t 的特色疏散。而这些被排除在域自顺应进程之外的样本 T^u,可以被用作 Universum 正则 L_u,以包管分类器所定义的类型边界也能更好的感应到标的域。
图 2-B 也形象地展示了源域分类丧失及域自顺应定位丧失的预期效果,其中 L_c 包管不同类型源域样本可以被正确区分,L_d 将源域标的域疏散从事拉近,而 L_u 将类型边界拉近到未知标签标的域样本处。
图 3 – 整体工作流及标的样本分配器结构
我们提出,域自顺应定位丧失可以很便捷地将域自顺应办法嵌入到已有弱监视定位办法中大幅提升其功能。如图 3 所示,在已有弱监视定位模型上嵌入我们的办法仅需要引入一个标的样本分配器(Target Sample Assigner)从事标的域样本子集的划分,该分配器通过记忆矩阵 M 在训练进程中实时更新未知类标的域样本集 T^u 与真实标的域样本集 T^r 的锚点,并以将二者和源域特色作为聚类中心从事三路 K 均值聚类,获得每个标的域样本所属的子集。最后依此样本子集,我们可以获得域自顺应丧失 L_d、以及 Universum 正则 L_u 并利用二者与源域分类丧失 L_c 一起对训练进程从事监视,使得在包管源域分类准确性的情况下,尽可能的拉近源域与标的域特色,并减少未知类型样本影响。这样一来,在将该模型应用于标的域(也就是像素特色)从事物体定位时,最终生成的定位热力求的质量将获得显著提升。
实验
图 3 – 物体定位热力求及最终定位 / 分割结果
我们在三个弱监视标的定位数据集上验证了我们办法的有效性:
从视觉效果来看,由于包管了图象与像素特色域的疏散一致性,我们的办法可以更为全面的抓取物体区域。同时,由于 Universum 正则关注了背景像素对分类器的影响,我们的办法生成的定位热力求可以更好的贴近物体边缘并抑制类型相关背景的响应程度,如水面之于鸭子。
从定量结果中可以也看到,在标的定位功能方面,我们的办法在三个数据上均取得了非常好的效果,尤其是在对于非细粒度标的定位的情况(ImageNet 和 OpenImages 数据集),我们的办法均取得了最优的定位功能。而对于图象分类功能方面,由于引入域自顺应会导致源域准确度的丧失,但通过借鉴多阶段策略利用一个附加的分类模型(仅使用 L_c 训练)生成分类结果即可解决域自顺应带来的副作用。
此外,我们也具备很好的泛化性,可以兼容多类域自顺应及多种弱监视标的定位办法,以提升定位功能。