优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

一、前言Non keypoint-based的目标检测模型由分类和回归分支组成,由于不同的任务驱动因素,这两个分支对来自相同尺度级别和相同空间位置的特征具有不同的敏感性。 point-based的预测方法,在基于高分类置信点具有高回归质量的假设上,导致错位问题。 我们的分析表明,该问题进一步具体由尺度错位和空间错位组成。

一、前言

Non keypoint-based的目标检测模型由分类和回归分支组成,由于不同的任务驱动因素,这两个分支对来自相同尺度级别和相同空间位置的特征具有不同的敏感性。point-based的预测方法,在基于高分类置信点具有高回归质量的假设上,导致错位问题。我们的分析表明,该问题进一步具体由尺度错位和空间错位组成。

研究者的目标是以最小的成本解决这一现象——对head network进行微调,并用一种新的标签分配方法代替。实验表明,与基线FCOS(一种单阶段和无锚目标象检测模型)相比,新提出的模型在不同的主干上始终获得大约3 个AP的改进,证明了新方法的简单性和效率。

二、背景

目标检测是深度学习时代比较发达的研究领域。通常考虑两种不同的任务,分类旨在研究跨多类的不同特征,回归旨在绘制准确的边界框。然而,由于这两个任务之间的巨大特征信息敏感性,TSD【Revisiting the sibling head in object detector】显示存在空间特征错位问题,并损害了基于NMS的模型预测高置信度分类和高质量回归结果的能力。

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

对于空间错位部分,研究者在同一实例中渲染了分类损失和回归损失的空间分布。如上图所示,两个分布高度错位。具有微小分类损失或回归损失的点具有更好的特征可供这两个分支分别利用。因此,两个任务损失的高度错位分布表明这两个任务不喜欢相同空间位置的特征。

在这些分析下,为了解决尺度特征错位问题,研究者为每个任务设计了一个任务驱动的动态感受野适配器,一个简单但有效的形变卷积模块。为了减轻空间特征错位带来的负面影响,设计了一种标签分配方法,挖掘空间最对齐的样本,以增强模型预测具有高分类分数的可靠回归点的能力。

三、新框架

  •  dynamic receptive filed adaptor

在现代one-stage检测器的head,为了在两个分支上获得相同大小的特征图,来自两个分支的四个卷积操作的每一步共享完全相同的内核大小、striding和padding。每个分支的最终感受野由下式计算:

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

Rl是每个FPN级别馈送的初始特征图的输入图像上的感受野,f(•)是关于跨四个连续卷积层的感受野的静态计算方法。

值得注意的是,RFA模块仅应用于检测器head的第一步,具有两个单独的形变卷积,以增强每个分支对尺度信息的适应能力,并进一步减轻尺度错位的差异。 它不同于直接将形变卷积应用于主干或neck,而不考虑两个分支的不同感受野。 它也不同于VFNet和RepPoints,它们通过形变卷积合并两个分支的信息。 在我们的例子中,每个分支都放宽了规模不匹配,因为我们根据详细的特征信息使每个分支中的每个特征点具有不同的个体感受野。

形变卷积(Deformable Convolution)原理

形变卷积的实现方法如下图所示:

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

offset field通过在原图上进行标准卷积操作得到,通道数为2N表示N个2维的偏置量(△x,△y),N表示卷积核的个数即输出特征层的通道数。

形变卷积过程可以描述为:首先在输入feature map上进行标准卷积得到N个2维的偏置量(△x,△y),然后分别对输入feature map上各个点的值进行修正:

设feature map为P,即P ( x , y ) = P ( x + △ x , y + △ y ),当x+△x为分数时,使用双线性插值计算P(x+△x,y+△y)

形成N个feature map,然后使用N个卷积核一一对应进行卷积得到输出。标准卷积与形变卷积的计算效果如下图所示:

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

  •  Aligned Spatial Points Assignment Procedur

给定每个实例Ii的尺度分配结果l∗和l∗中的候选点Cl∗,新框架的任务是进一步挖掘Cl∗中空间最对齐的点。每个候选点有两个指标需要考虑:(1)考虑到两个任务的整体适应度Sf;(2) 由空间上的未对准损失分布引起的未对准度Sm。

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

使用softmax函数将Lcls和Lreg分别重新分配到相同的可测标准中,这是由softmax函数单调且其输出之和为一的优点给出的。对于未对齐的程度Sm,由于我们发现sigmoid函数可以高效地将变体输入转换为相当统一的输出,因此将其定义如下:

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

四、实验

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

COCO数据集上的比较

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

优于FCOS:在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

空间标签分配的可视化。第一行分别显示了两个任务的输入和损失分布。第二行的绿色十字是正分配点。

相关资讯

使用零样本目标检测识别物体 | 附代码

在这篇文章中,我们将探讨如何使用Hugging Face的transformers库来使用零样本目标检测在冰箱图像中识别物体。 这种方法允许我们在不需要针对这些物体进行特定预训练的情况下识别各种物品。 以下是如何工作的代码的逐步指南。

将目标检测模型导出到C++|RT-DETR、YOLO-NAS、YOLOv10、YOLOv9、YOLOv8

最近,出现了更新的YOLO模型,还有RT-DETR模型,这是一个声称能击败YOLO模型的变换器模型,我想将这些模型导出并进行比较,并将它们添加到我的库中。 在这篇文章中,我将带你了解如何将这些模型导出到ONNX并运行它们,然后最终比较这些模型的速度。 将RT-DETR模型导出到ONNX这是从模型的GitHub页面获取的模型示例输出为了导出模型,我们需要从模型的GitHub仓库克隆代码()。

Drone-YOLO:一种有效的无人机图像目标检测

01 前景概要今天分享中,我们提出了Drone-YOLO,这是一系列基于YOLOv8模型的多尺度无人机图像目标检测算法,旨在克服与无人机图像目标检测相关的特定挑战。 为了解决大场景大小和小检测对象的问题,我们对YOLOv8模型的颈部组件进行了改进。 具体而言,我们采用了三层PAFPN结构,并结合了一个使用大规模特征图为小型目标量身定制的检测头,显著增强了算法检测小型目标的能力。