日前,全球计算机视觉顶级会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition)公布了2021年论文吸收结果。来自翻新奇智的论文 《Zero-Shot Instance Segmentation》成功被CVPR 2021吸收。
CVPR是计算机视觉领域三大顶级会议(CVPR、ICCV、ECCV)之一。CVPR的论文投稿量近五年来持续增长,根据CVPR官方网站统计,2021年一共收到有效投稿论文超过7500篇,最终1663篇论文被吸收,吸收率为27.3%。在激烈的竞争中,翻新奇智投稿的论文脱颖而出,显示翻新奇智在计算机视觉领域深厚的翻新力。
翻新奇智被CVPR2021吸收的论文提出了零样本实例支解,属于零样本物体检测的自然延伸(类似于Mask-RCNN之于Faster-RCNN)。翻新奇智在将人工智能应用到商业化实践的过程中,会遇到AI落地过程中很是现实的问题,尤其是在面向信息化程度有限,样本复杂多样,正样本数量奇缺或需要很是专业标注要领的制造业场景时,其中的数据获取困难、标注成本高等行业难题成为众多AI公司快速商业化的桎梏。翻新奇智针对这一难题展开深入研究,获得了突破性的翻新结果,该结果对于数据发现、数据粗筛、辅助标注、模型基本能力探索等方面有巨大的提升。
论文解读:
提交版本的摘要如截图,中文意思如下:
深度学习可以利用大量的标注数据来有效地提升实例支解的精度,但是在诸如医疗和工业领域,要么收集足够的数据很是困难,要么标注数据需要很是专业的知识。从这点出发,我们提出了一个新的使命称之为零样本实例支解(Zero-Shot Instance Segmentation),文中简称ZSI。ZSI的使命要求在训练过程中,只用已经见过并有标注的数据进行训练,但在尝试和推理时能够同时支解出见过和没见过的物体实例。我们先用数学语言对该使命进行描述,然后提出了一个要领来解决ZSI的问题。我们的要领包括零样本检测器(Zero-shot Detector)、语义蒙版头(Semantic Mask Head)、背景感知RPN和背景同步策略。我们同时也提供了在MS-COCO数据集上的基准尝试。实验结果表明,我们提出的要领不仅在ZSI的使命上效果不错,在零样本检测使命上也取得了比之前已有研究更好的表现。我们的要领可以作为一条坚实的基准,能够有效的帮助未来的研究者进行零样本实例支解的研究。
论文摘要截图
本篇论文的主要贡献为:
1:引出并定义出现实世界中遇到的零样本的实例支解使命。
2:针对零样本实例支解使命,提出应对的算法,该算法是基于背景感知的检测-支解框架。
3:定义了零样本支解(ZSI)自己独特的尝试基准。
4:尝试结果表明在ZSD使命上超越了已有的要领,且在ZSI使命上的结果很有竞争力。
图1:零样本实例支解示例
在零样本实例支解中,开始只利用标注的数据(标记为seen)作为训练集训练模型,在训练完模型之后,使模型对训练时候见到过(seen)的种别和模型训练的时候没有见到(unseen)的种别分别进行预测。在论文提出的要领中,如图1,餐刀是在训练模型的时候见过的种别,叉子是在训练模型的时候没有见过的种别,通过训练图象模型,同时维持一个餐刀和叉子在语义层面的特点向量来进行联系。
整个零样本实例支解的框架如图2所示。对于一张输入图象来讲,首先要利用骨干网络(backbone),BA-RPN和ROI Align来提取视觉特点和背景的词向量,然后经过Sync-bg模块后分别送入零样本检测器和语义支解头,从而得到实例支解的结果。
图2 零样本实例支解的框架
零样本检测器的设计细节如图3所示,采用了编码-解码结构,在尝试/推理时只是用解码器的Te
图3 零样本检测器的设计细节
图4:语义支解头
语义支解头的结构如图4所示,它是一个encoder-decoder的架构,在训练阶段,利用encoder来把图象的特点编码到语义-文字特点向量。然后利用decoder把上面构建的语义-文字特点向量去重建图象的使命:检测,支解等。
不同模块的作用如表1所示,可以看到,每个模块都对结果有一定的提升,当按照论文提出的要领结合在一起时,达到最佳的效果。
表1: 每个模块的效果
实验结果:
首先如论文开头所说,该要领在Zero-shot Detection的使命(数据集是COCO)上也明显超越了已有的state-of-the-art的结果,达到了新的SOTA。
对于ZSI和GZSI(即零样本实例支解和通用零样本实例支解)使命来讲,论文的结果也很是不错,见表3和表4
局限性分析:
零样本实例支解致力于解决工业场景中数据少,或者是数据难以发现和标注的问题,可以在没有标注数据的情况下标注出新的类。但正如当前阶段的AI不可能自己学会完全没见过的知识一样,论文提出的要领采用了词向量这个额外特点作为中间媒介,然后把问题的核心转换为如何利用额外特点在特点空间对齐视觉特点和语义信息,并迁移到没有见过的新类上。
翻新奇智CTO张发恩(论文作者之一)指出:“翻新奇智提出的零样本实例支解算法,是业界首次提出可以利用零样本算法来做实例支解的要领,同时还能够提升业界最新的零样本检测算法的准确率。尤其是对翻新奇智来说,深度耕耘智能制造,在很多场景下,视觉系统所产生的数据形式多样,没有统一标准,很难直接利用深度学习的算法模型来利用。这个时候如果能够利用零样本学习的要领达到数据发现、数据粗筛、辅助标注、模型基本能力探索等工作显现的尤为重要。这也是我们做这项研究的初衷。”
翻新奇智聚焦智能制造,致力用人工智能翻新技术解决复杂的工业生产问题,三年来已服务中冶赛迪、中铁四局、中集、宗申、华电电科院等多家行业龙头企业,积累和沉淀了丰富的行业实践,提出一系列能解决实际问题的翻新算法和产品或解决方案,如少样本学习、零样本实例支解、混合级联实例支解算法、物理缺陷模拟等。在智能制造已成为国家战略举措的时代背景下,翻新奇智将继续在制造业领域精耕细作,打造更多的AI翻新实践。