论文链接:https://arxiv.org/abs/2106.05897
代码地址:https://github.com/Talegqz/unsupervised_co_part_segmentation
01 引 言
零件肢解 (co-part segmentation) 是计算机视觉领域中的一个重要问题。它通过识别图片中指标对象的组成零件 (part) ,并将属于每一个零件的像素聚类到一起,可以为有铰链结构的物体提供较为紧凑且有意义的零件结构 (part-structure) 表示。它可以利用于运动追踪、动作识别、机器人操纵以及自动驾驶等具体任务,因而具有重要的研究价值。
随着深度进修的发展以及大量的标注数据集的出现,鉴于监视的进修步骤已经在包括零件肢解在内的很多视觉问题上超越了传统的步骤。但这类进修步骤往往需要大量的先验知识,并且高度依赖高质量数据集标注,较难利用到未曾见过的物体上。
在本项研究中,我们提出了一种无监视的图像零件肢解步骤,创新性地采用了将零件肢解进程和零件拆卸进程相结合的自监视进修思路,利用视频中的运动信息来提取潜在的零件特色,从而完成对物体零件的有意义的肢解。我们通过在人体、人手、四足动物、机械臂等不同研究对象的视频上的测试,证明了这一无监视图像零件肢解步骤有效性。同时,定量实验的对比也表明该步骤的效果优于现有的鉴于无监视进修的工作,达到了较高的水平。
02 方 法
我们的步骤鉴于一个假设,即视频中的运动物体是由不变的零件组成,视频中帧与帧的区别只是零件的不同位置和缩放之间的区别,通过零件之间的仿射转换,我们可以将视频中的一帧转换为另一帧。鉴于这一假设,我们利用神经网络分析两张图片之间的转换,自动将图片肢解为不同的零件并进修其对应的转换方式,进而根据另一张图片的信息重新组装这些零件,从而完成无监视的零件肢解。
对于单张图片来说,零件的肢解拆卸进程如下图所示。首先,我们利用编码器把输入图片编码为零件特色和零件转换。然后,其中的零件特色将通过解码器生成相应的零件图片和零件蒙版。最后,这些零件图片将根据对应的零件蒙版被组装成最终的图片。
零件肢解拆卸的结构
而在训练时,我们每次随机从视频中选择两帧作为源图片和指标图片。我们假定视频中零件都存在一个标准的特色表示,而每一个零件的转换是相对于标准特色的转换。在此基础上,我们可以通过逆转换将源图片的零件特色转换到标准特色,然后再利用指标图片的转换得到新的转换特色,通过这个新的特色可以生成预测的指标图片。
鉴于零件肢解拆卸的训练进程
在训练进程中,我们要求神经网络能够尽可能地重构指标图片。由于上述组装进程的约束,只有更准确的肢解才能完成更好的生成结果。因而通过这种方式,我们完成了对图片肢解的自监视进修。而进一步地,我们限定转换为只包括旋转、缩放、平移的仿射转换,并且假定在标准特色空间中每一个零件的中心在原点位置,同时协方差矩阵为单位矩阵。在训练中我们要求在经过转换后,零件的中心应该与转换的平移部分一致,而零件的协方差矩阵与旋转缩放矩阵一致。鉴于这个约束,我们可以使网络学到的零件肢解和转换有更明确的物理意义,增加了结果的可解释性。
03 实验结果
我们的步骤不需要任何标注,可以直接利用于人体、手、四足动物和机械臂等对象。
人手、马、人体以及机械臂的肢解结果
而与其他现有的无监视步骤相比,我们的步骤完成了更加一致且紧凑的肢解,并在肢解一致性和前景准确性的定量实验上超过了现有的步骤。
在 VoxCeleb 和 Tai-Chi-HD 数据集上与其他步骤的对比结果
如下图所示,我们的网络可以进修到每一个零件的肢解,并可以将零件重新组合为输入图片。
零件肢解的结果展示
每一个零件的图片由解码器得到,最后组装为源图片
同时,在损失函数约束下,我们可以进修到可解释的仿射转换,其中估计的转换与每一个零件运动的方向相一致。
仿射转换可解释性的对比
图片分别对应 Motion Co-part 的结果,以及我们的步骤在不使用转换损失函数和使用转换损失函数下所训练的模型结果
另外,通过在较大的数据集上训练,我们的模型可以扩展到同类型的新图片上。例如下图所示,我们可将在 Tai-Chi-HD 和 VoxCeleb 等数据集上训练的模型无缝利用到在 Youtube 上找到的同类新视频上。
图文 | 高庆哲
Visual Computing and Learning (VCL)