太长不看版
这篇论文介绍了一项新的任务 —— 指向性遥感图象朋分(RRSIS),以及一种新的办法 —— 转动多标准交互网络(RMSIN)。RRSIS 旨在根据文本描述实行遥感图象中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新的大规模 RRSIS 数据集(RRSIS-D),其中涵盖了多种空间分辨率的图象和具有标准和角度多样性的朋分目标(已公开!)。
同时还提出了多标准交互模块和转动卷积(已开源!),以处理遥感图象的复杂性。实验证明,RMSIN 办法在 RRSIS 任务上表现优于当前最先进的办法,为未来的研究提供了有力的基线。(1080ti 即可跑!)
论文地址:https://arxiv.org/abs/2312.12470
代码地址:https://github.com/Lsan2401/RMSIN
研究背景和意义
指向性遥感图象朋分(RRSIS)是一种结合了计算机视觉与自然说话处理两门学科的前沿技术。根据给定的文本描述,RRSIS 可以在遥感图象中对目标对象举行像素级定位。
然而,RRSIS 任务的发展受到现有数据集规模和范围有限的制约。由于遥感图象具有俯瞰拍摄的特殊视角,和自然图片存在巨大的语义差距;且其目标物体具有丰富的标准和角度变化,这极大提高了数据集标注的难度,需要投入大量人力和时间成本。这些因素限制了现有数据集的规模和标注的精度,导致现存数据集无法满足模型将训练到关键任务的实际运用所需的精度水平。
此外,现有的基于自然图象指向性朋分(RIS)办法应用于遥感图象时面临着局限性。如图 1 所示,遥感图象普遍存在多样的大标准空间变化和多个方位出现的物体,这样巨大的语义差异使得训练于自然图象的 SOTA 办法在遥感图象上表现不佳。
当前的 RIS 办法通常着重于实行视觉和说话特色的对齐,这些办法在边界清晰的上下文中具有良好的表现,但在面对遥感图象的混乱和非结构化性质时精度明显下降,在 RRSIS 任务中性能差距明显。这些问题都呼唤一种更稳健、更广泛的针对遥感图象的办法。
针对上述问题,作家构建了一个全新的大规模 RRSIS 数据集 RRSIS-D,该数据集的规模是其前身的三倍,不仅涵盖了多种空间分辨率的图象,而且朋分目标也具有显著的标准和角度多样性。
同时,作家提出了转动多标准交互网络(RMSIN)。RMSIN 的结构包含多标准交互模块和转动卷积,以应对 RRSIS 的复杂性。
图1:遥感图象朋分普遍存在的问题。
具体来说,该研究的贡献可总结为:
构建了新的指向性遥感图象朋分 benchmark 数据集 RRSIS-D。RRSIS-D 基于 SAM 强大的朋分功能,再举行手动校准,涵盖多种多样的空间分辨率和物体方位的数据。新数据集能够为传统 RIS 办法向遥感领域迁移应用提供基础。
提出了转动多标准交互网络(RMSIN),以应对遥感图象中普遍存在的多空间标准和方位所带来的挑战。
设计了层内标准交互模块和层间标准交互模块来处理不同标准内和跨标准的细粒度信息。同时,作家在朋分的解码器端引入了转动自适应卷积来增强模型的鲁棒性,有效应对 RRSIS 中无处不在的转动现象。
广泛的实验证明了本文中的 RMSIN 优于当前 SOTA 办法,在一系列评估指标上,持续表现出最佳性能,为之后的 RRSIS 的研究提供强有力的基线。
RRSIS-D 数据集
作家提出了一个专门指向遥感图象朋分的大规模数据集 RRSIS-D。Segment Anything Model(SAM)实行了卓越的朋分性能。在 SAM 的基础上,作家采用了一种半自动办法实行数据集的标注,利用边界框和 SAM 生成像素级掩码,从而在标注过程中节约成本。
数据集 RRSIS-D 由 17402 个图象 – 描述 – 掩码对组成,所有图象的分辨率统一为高 800px、宽 800px,包含 20 个遥感场景多个物体类别,图象描述由 7 种属性组成。图 2 列举了数据集掩码占图象总尺寸的比例(θ),并列举了具有代表性的数据集实例,可以看出朋分目标涉及极大、极小的显著标准变换的目标。丰富种类的图片使得数据集具有挑战性。
图2:列举了数据集掩码占图象总尺寸的比例。
办法
RMSIN 模型的流程如图 3 所示。对于给定输入图象和描述 ,首先描述 E 通过文本 backbone转换为文本特色。
同时,图象通过复合标准交互编码器(Compounded Scale Interaction Encoder,CSIE)举行处理并与文本特色交互,生成具有充分语义的跨多个标准的融合特色。CSIE 由标准内交互模块(Intra-scale Interaction Module,IIM)和跨标准交互模块(Cross-scale Interaction Module,CIM)组成,在编码器的每层,都会应用标准内交互分支来增强局部视觉建模,而对称的视觉 – 说话融合分支则会对视觉和说话特色举行调整,以改进后续的图象特色提取。
随后,编码器每层的特色都会传递给 CIM,该模块通过多标准注意(Multi-scale Attention)促进信息交互和空间关系优化。最后,作家提出了基于自适应转动卷积(ARC)的定向感知解码器(OAD),通过对 CSIE 多个阶段的特色举行并行推理来生成朋分掩码。
图3:RMSIN 模型的流程示意图。
标准内交互模块(Intra-scale Interaction Module)
编码器每层通过标准内交互模块(IIM)进一步挖掘每个标准内的丰富信息,促进视觉和说话模式之间的交互。IIM 基于四个阶段的层次结构,可表示为。通过文本 backbone 获取文本特色(其中 C 表示通道数)后,IIM 在阶段 i 的输入特色可描述为:.
其中, 是从视觉 backbone和输入 I 中提取的。具体来说,在阶段 i 中,输入特色经过降采样和 MLP 的组合以缩小标准并统一特色维度,得到。经过下采样的特色被送入两个分支,分别用于增强视觉先验和融合多模态信息。
多感受野分支(Various Receptive)
特色通过 J 个不同卷积核大小的卷积分支举行变换,以产生具有不同感受野的特色,可表述为:
其中, 表示卷积的第 j 个分支,σ 表示 Sigmoid 函数。公式即表达利用不同的卷积设置来平衡所有像素之间的权重。权重通过以下方式来增强特色:
输入由视觉门 α (Vision Gate) 调节后,作为原始图象特色的局部细粒度信息的补充特色。视觉门的具体实行办法是:
其中,LN (⋅) 为 1×1 卷积核大小的卷积,Tanh (⋅) 和 ReLU (⋅) 表示激活函数。
跨模态对齐分支(Cross-modal Alignment)
跨模态对齐分支是专为多模态特色对齐设计的,这是使模型能够理解自然说话的关键。具体来说,在输入和说话特色 的情况下,首先使用作为 Query,以作为 Key 和 Value,实行缩放点积注意力,从而获得多模态特色:
,
随后,将注意力与结合起来,得到说话引导的图象特色:
,
与的输入操作类似,得到的输入由说话门 β(Language Gate) 调节并加到原始图象特色中,作为补充的说话特色。说话门 β 的结构与视觉门相同。因此,标准内交互模块在 i 阶段的整体输入特性可以表示为:
.
跨标准交互模块(Cross-scale Interaction Module)
基于通过标准内特色交互获得在说话特色的引导下的局部多标准特色,作家提出跨标准交互模块以进一步加强粗粒度和细粒度特色间的交互,以应对遥感图象中的大标准变化。具体来说,该模块将标准内交互模块每层的输入,即之前提到的,作为输入,并执行多阶段交互。首先举行多标准特色组合,将特色在空间维度降采样到相同大小,并沿通道维度举行拼接,公式表达如下:
,
.
其中,表示降采样后的新特色,downsample (⋅) 通过 Average Pooling 实行;表示沿通道维度拼接的多标准特色,即通过操作在通道维度拼接 得到的多标准特色。多标准特色随后被输入到不同的感受野以实行深度多标准交互,通过大小和步长不同的被调整到不同的标准,其定义如下:
,
,
其中,是调整的标准数,是第 m 个深度卷积的卷积核大小, 和 是的高度和权重。以此得到集合,就可以在空间维度上对所有元素举行扁平化处理,并将它们拼接成一个序列的多标准感知特色。以原特色作为 Query,以多标准感知特色作为 Key 和 Value 执行跨标准注意力:
为了更好地保留局部细节,在跨标准注意力输入中并行加入局部关系补偿,得到跨标准注意力的最终输入:
,
其中,DWConv (⋅) 表示深度卷积,Hardswish (⋅) 为激活函数,以增强多标准局部信息的提取。
最终,对于来自的每个部分,都会执行来自相应部分的感知门正则化,以获得跨标准交互的权重。该权重被视为标准内特色模块输入的辅助残差。计算公式如下:
,
其中。感知门的输入被用于后续解码器的最终掩码预测。
自适应转动动态卷积
考虑到遥感图象中的目标实例通常会呈现不同的方位,使用静态的水平卷积核生成掩码可能会导致精度缺失。受转动物体检测的启发,作家提出使用自适应转动动态卷积的朋分解码器中,以实行更好的掩码预测。
自适应转动卷积从输入特色中捕捉角度信息,并动态地重参数化卷积核权重参数,以过滤冗余特色。具体来说,它提取方位特色,并根据输入预测 n 个角度和相应的权重。对于输入 Χ,θ,λ 的预测值为:
,
由于静态卷积核权重可以看作是从特色映射齐次方程的二维核空间以特定方位采样点采样得到的值。因此,卷积核的转动就是转动 – 重采样的过程。具体来说,卷积核权重根据预测的角度重参数化(Rotate Block)如下所示:
,
,,
其中, 是原始卷积核采样点的坐标,是围绕坐标原点举行转动仿射变换的转动矩阵的逆矩阵,interpolation (⋅) 通过双线性插值实行。最后,用得到的卷积核对特色举行过滤,并举行加权求和运算,以生成方位感知特色:
则自顶向下的掩码预测整体过程可总结如下:
,
其中,Seg (⋅) 指的是包括 3 ×3 卷积层、Batch Normalization 层和 ReLU 激活函数的非线性模块,以增强朋分特色空间的非线性。而 Proj (⋅) 为线性变换函数,用于将最终特色映射到二分类的掩码。值得注意的是,输入自适应转动动态卷积 ARC 中获得优化特色 ,以利用特色空间中的方位信息,从而消除冗余,提高边界细节的准确性。
实验
在实验中,作家在 RRSIS-D 数据集上比较了 RMSIN 与现有最先进的自然图象参考图象朋分办法的性能。为了举行公平比较,作家遵循了这些办法的原始实行细节。
在验证集中,RMSIN 在每个指标上都优于所有比较办法。值得注意的是,与最近表现最好的 LAVT 办法相比,RMSIN 将 mIoU 提高了 3.54%。在处理非常小或转动物体等复杂情况时,这种显著提升尤为明显,在 [email protected]、[email protected] 和 [email protected] 中分别提高了 5.12%、4.71% 和 4.25%。这些结果突出表明,RMSIN 能够捕捉到详细的局部信息和特定方位信息,从而实行更准确的朋分。
消融
作家在 RRSIS-D 上举行了各种消融实验,以评估 RMSIN 的网络中关键组件的功效。
可视化
为了直观了解 RMSIN ,作家将预测结果与基线举行了定性比较。如图 4 所示,RMSIN 在根据表情精确识别各种比例的目标方面表现出了卓越的能力。此外,它还能在嘈杂的背景中定位微小标准的物体,并稳健地预测不同角度出现的物体。与此相反,基线模型生成的预测遮罩却存在缺陷,包括部分缺失和明显偏移。
图4:RMSIN 的预测结果与基线举行定性比较。
在图 5 中,作家对在 ARC 和 CSIE 的消融作用下,RMSIN 在训练过程中生成的特色图举行了可视化。很明显,在比例交互和转动卷积的帮助下,RMSIN 可以准确捕捉边界信息。有了 CSIE 的比例交互和 ARC 的方位提取,RMSIN 可以更敏锐地聚焦于所指的目标。与第一行相比,CSIE 提供了更精确的深层语义,而 ARC 则提供了空间先验,这对转动物体朋分非常重要。
图5:在 ARC 和 CSIE 的消融作用下,RMSIN 在训练过程中生成的特色图。
结论
在本文中,作家提出了转动多标准交互网络(RMSIN),这是一种解决 RRSIS 中复杂空间标准和方位问题的新型解决方案。RMSIN 中引入的 「内标准交互模块」和 「跨标准交互模块」 专门应对航空图象中不同空间标准的挑战。此外,RMSIN 还集成了自适应转动卷积功能,为有效处理此类图象的不同方位特色提供了强大的解决方案。在新开发的综合性 RRSIS-D 数据集上举行的广泛验证证明了 RMSIN 的卓越性能。
更多细节请参考原文!