抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

现有的深度边沿检测收集通常基于包含了上下采样模块的编码器 - 解码器架构,以更好的提取多层次的特点,但这也限制了收集输出既准又细的边沿检测结果。针对这一问题,一篇 AAAI 2024 上的论文给出了新的解决方案。论文题目:DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection作者:叶云帆(国防科技大学),徐凯(国防科技大学),黄雨行(国防科技大学),易任娇(国防科技大学),蔡志平(国防科技大学)论文链接: : iGRAPE Lab

现有的深度边沿检测收集通常基于包含了上下采样模块的编码器 – 解码器架构,以更好的提取多层次的特点,但这也限制了收集输出既准又细的边沿检测结果。

针对这一问题,一篇 AAAI 2024 上的论文给出了新的解决方案。

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

论文题目:DiffusionEdge: Diffusion Probabilistic Model for Crisp Edge Detection

作者:叶云帆(国防科技大学),徐凯(国防科技大学),黄雨行(国防科技大学),易任娇(国防科技大学),蔡志平(国防科技大学)

论文链接: https://arxiv.org/abs/2401.02032

开源代码: https://github.com/GuHuangAI/DiffusionEdge

国防科技大学 iGRAPE Lab 提出了首个用于二维边沿检测任务的聚集概率模型方式,通过学习迭代的去噪历程获得边沿结果图,去噪历程如图 1 所示。为了在保留最终性能的同时减少计算资源的消耗,该方式在隐空间中训练收集,并引入了不确定性蒸馏模块以更好的优化。同时,本方式还采用解耦架构来加速去噪历程,并提出了相应的自符合傅立叶滤波器来调整特点。基于这些设计,本方式得以用有限的资源进行稳定的训练,用更少的增强策略来预测清晰准确的边沿图。在四个公共基准数据集上的大量实验表明,本文提出的方式在准确度和粗细度上全面超越了其他方式。

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

图 1 基于聚集概率模型的边沿检测历程与优势示例

本文的创新点包括:

1、提出了领域内第一个针对边沿检测任务的聚集模型 DiffusionEdge,无需任何后处理即可预测出更细更准确的边沿图。

2、针对聚集模型应用时的难点,设计了多种技术以确保方式能在隐空间中稳定学习,同时保留像素级的不确定性先验知识并自符合地过滤傅立叶空间中的隐特点。

3、在四个边沿检测公共基准数据集上开展的大量对比实验展示了 DiffusionEdge 在准确度和细度方面均具有卓越的性能优势。

相关工作

基于深度学习的方式通常采用包含上下采样的编解码结构集成多层特点 [1-2],或是整合多个标注的不确定性信息以提升边沿检测的准确度 [3]。然而,天然受限于这样的结构,其生成的边沿结果图对于下游任务来说太过粗厚而严重依赖后处理的问题仍然亟待解决。尽管许多工作已经在损坏函数 [4-5] 和标签修正策略 [6] 方面做出了探索以使收集能输出更细的边沿,但本文认为该领域仍然需要一个可以不借助任何额外模块,就能间接满足准确度和细度的边沿检测器,而无需任何后处理步骤。

聚集模型是一类基于马尔可夫链的生成模型,通过学习去噪历程逐渐恢复目标数据样本。聚集模型在计算机视觉、自然语言处理和音频生成等领域都表现出了卓越的性能。不仅如此,通过将图象或是其他模态的输入作为额外条件时,其在感知任务中也表现出了巨大的潜力,例如图象分割 [7]、目标检测 [8] 和姿态估计 [9] 等。

方式描述

本文所提出的 DiffusionEdge 方式总体框架如图 2 所示。受以往工作的启发,该方式在隐空间中训练具有解耦结构的聚集模型,并将图象作为额外的条件线索输入。该方式引入了自符合傅里叶滤波器来进行频率解析,且为了保留来自多个标注者的像素级不确定性信息并减少对计算资源的要求,还以蒸馏的方式间接使用交叉熵损坏优化隐空间。

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

图 2 DiffusionEdge 的整体结构示意

针对目前的聚集模型受到采样步数太多,推理时间太长等问题的困扰,本方式受 DDM [10] 的启发,同样使用解耦的聚集模型架构来加速采样推理历程。其中,解耦的前向聚集历程由显式的转移概率和标准 Wiener 历程的组合来控制:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge其中抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge分别代表初始边沿和噪声边沿,抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge指的是反向边沿梯度的显式转换函数。与 DDM 类似,本文方式默认使用常量函数抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge,则其相应的逆历程可以被表示为:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge其中抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge。为了训练解耦的聚集模型,该方式需要同时监督数据和噪声分量,因此,训练目标可以被参数化为:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge其中抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge是去噪收集中的参数。由于聚集模型如果要在原始图象空间中训练的话会占用太多的计算成本,因此参考 [11] 的思路,本文提出的方式将训练历程转移到了具有 4 倍下采样空间大小的隐空间中。

如图 2 所示,该方式首先训练了一对自编码器和解码器的收集,该编码器将边沿标注压缩为一个隐变量,而解码器则用于从这个隐变量中恢复出原来的边沿标注。如此一来,在训练基于 U-Net 结构的去噪收集阶段,该方式便固定这一对自编码和解码器收集的权重,并在隐空间中训练去噪历程,这样可以大幅减少收集对计算资源的消耗,同时维持不错的性能。

为了提升收集最后的性能,本文提出的方式在解耦操作中引入了一种可以自符合地过滤掉不同频率特点的模块。如图 2 左下角所示,该方式将自符合的快速傅立叶变换滤波器(Adaptive FFT-filter)集成到了去噪 Unet 收集中,位置在解耦操作之前,以在频域中自符合过滤并分离出边沿图和噪声分量。具体来说,给定编码器特点 抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge ,该方式首先沿空间维度执行二维的傅里叶变换(FFT),并将变换后的特点表示为 抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge 。紧接着,为了训练这个自符合频谱滤波模块,构造了一个可学习的权重图 抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge 并将其W乘以Fc。频谱滤波器可以全局地调整特定频率,并且学习到的权重可以符合不同数据集目标分布的不同频率情况。通过自符合地滤除无用成分,本方式通过快速傅里叶逆变换(IFFT)操作将特点从频域映射回空间域。最后,通过额外引入了来自的残差连接,避免完全过滤掉了所有有用的信息。上述历程可以由以下公式来描述:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge其中抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge是输出特点,o表示哈达玛积(Hadamard Product)。

由于边沿和非边沿像素的数量高度不平衡(大多数像素都是非边沿的背景),参考以往的工作,我们同样引入不确定性感知的损坏函数进行训练。具体来说,将作为第i个像素的真值边沿概率,对于第j个边沿图中的第i个像素,其值为抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge,则不确定性感知 WCE 损坏的计算方式如下:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

其中抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge,其中抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge是决定真值标注中不确定的边沿像素的阈值,如果像素值大于 0 而小于此阈值,则此类模糊的,置信度不够高的像素样本将在后续的优化历程中被忽略(损坏函数为 0)。抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge分别表示真值标注边沿图中边沿和非边沿像素的数量。是用来平衡抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge的权重(设为 1.1)。因此,每个边沿图的最终损坏函数计算方式为抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

在优化历程中忽略模糊的低置信度的像素可以避免收集混乱,使训练历程更稳定的收敛,并提高模型的表现。然而,将二元交叉熵损坏间接应用于在数值和空间上均未对齐的隐空间中是几乎不可能的。尤其是,不确定性感知的交叉熵损坏中利用阈值抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge(一般从 0 到 1)来判断像素是否为边沿,这是从图象空间上定义的,而隐变量遵循正态分布并且具有完全不同的范围和实际意义。此外,像素级的不确定性很难与不同大小的编码和下采样的隐特点保持一致,二者是很难间接兼容的。因此,将交叉熵损坏间接应用于优化隐变量不可避免地会导致不正确的不确定性感知。

另一方面,人们可以选择将隐变量解码回图象级别,从而可以间接使用不确定性感知交叉熵损坏来间接监督预测出的边沿结果图。不幸的是,这种实现让反向传播的参数梯度通过了冗余的自编码器收集,使得梯度很难得到有效的传递。此外,自编码器收集中额外的梯度计算会带来巨大的 GPU 内存消耗成本,这违背了本方式设计一个实用的边沿检测器的初衷,很难推广到实际应用中。因此,本方式提出了不确定性蒸馏损坏,可以间接优化隐空间上的梯度,具体来说,设重构出的隐变量为抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge,自编码器收集的解码器是D,解码出的边沿结果是eD,本方式考虑基于链式法则间接计算不确定性感知的二元交叉熵损坏抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge的梯度,具体计算方式为:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

为了消除自编码器收集的负面影响,本方式间接跳过了自编码器抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge传递梯度并将梯度抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge的计算方式修改调整为:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

这样的实现方式大大降低了计算成本,并允许利用不确定性感知的损坏函数间接在隐变量上优化。如此一来,再结合一个随步数t自符合变化的时变损坏权重抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge,本方式最终训练优化目标可以被表示为:

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

实验结果

本方式在四个领域内被广泛使用的边沿检测公共标准数据集上进行了实验:BSDS、NYUDv2、Multicue 和 BIPED。由于边沿检测数据标注比较难,标注数据量都比较少,以往的方式通常会使用各种策略来增强数据集。例如说,BSDS 中的图象通过水平翻转 (2×)、缩放 (3×) 和旋转 (16×) 进行增强,能够生成比原始版本扩大了 96 倍的训练集。以往的方式在其他数据集上使用的通用增强策略总结在了表格 1 中,其中 F 代表水平翻转,S 代表缩放,R 代表旋转,C 代表裁剪,G 代表伽马校正。不同的是,本方式仅需要使用随机裁剪的 320320 的图象块来训练所有数据。在 BSDS 数据集中,本方式则仅仅采用随机的翻转和缩放,其定量对比结果展示在了表 2 中。在 NYUDv2、Mu lticue 和 BIPED 数据集中,该方式仅需采用随机翻转训练。在使用更少增强策略的情况下,本方式在各个数据集,各个指标上的表现都优于之前的方式。通过观察图 3-5 的预测结果可以看出,DiffusionEdge 能够学习并预测出跟 gt 分布几乎一样的边沿检测结果图来,预测结果准确而清晰的优势对于有精细化需求的下游任务来说非常重要,也展示了其能间接应用于后续任务的巨大潜力。

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

                                 表 1 以往方式在四个边沿检测数据集上使用的增强策略

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

                     表 2 不同方式在 BSDS 数据集上的定量对比

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

                                图 3 不同方式在 BSDS 数据集上的定性对比抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

                                图 4 不同方式在 NYUDv2 数据集上的定性对比

抛弃编码器-解码器架构,用聚集模型做边沿检测效果更好,国防科大提出DiffusionEdge

                                图 5 不同方式在 BIPED 数据集上的定性对比

1. 参考文献

[1] Xie, S., & Tu, Z. (2015). Holistically-nested edge detection. In Proceedings of the IEEE international conference on computer vision (pp. 1395-1403).

[2] Liu, Y., Cheng, M. M., Hu, X., Wang, K., & Bai, X. (2017). Richer convolutional features for edge detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3000-3009).

[3] Zhou, C., Huang, Y., Pu, M., Guan, Q., Huang, L., & Ling, H. (2023). The Treasure Beneath Multiple Annotations: An Uncertainty-aware Edge Detector. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 15507-15517).

[4] Deng, R., Shen, C., Liu, S., Wang, H., & Liu, X. (2018). Learning to predict crisp boundaries. In Proceedings of the European conference on computer vision (ECCV) (pp. 562-578).

[5] Huan, L., Xue, N., Zheng, X., He, W., Gong, J., & Xia, G. S. (2021). Unmixing convolutional features for crisp edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44 (10), 6602-6609.

[6] Ye, Y., Yi, R., Gao, Z., Cai, Z., & Xu, K. (2023). Delving into Crispness: Guided Label Refinement for Crisp Edge Detection. IEEE Transactions on Image Processing.

[7] Brempong, E. A., Kornblith, S., Chen, T., Parmar, N., Minderer, M., & Norouzi, M. (2022). Denoising pretraining for semantic segmentation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 4175-4186).

[8] Chen, S., Sun, P., Song, Y., & Luo, P. (2023). Diffusiondet: Diffusion model for object detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 19830-19843).

[9] Wang, J., Rupprecht, C., & Novotny, D. (2023). Posediffusion: Solving pose estimation via diffusion-aided bundle adjustment. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 9773-9783).

[10] Huang, Y., Qin, Z., Liu, X., & Xu, K. (2023). Decoupled Diffusion Models with Explicit Transition Probability. arXiv preprint arXiv:2306.13720.

[11] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 10684-10695).

给TA打赏
共{{data.count}}人
人已打赏
工程

比OpenAI官方提醒词指南更全,这26条黄金规则让LLM性能飙升50%以上

2024-2-5 14:45:00

工程

斯坦福和OpenAI提出meta-prompting,最强零样本prompting技术诞生了

2024-2-8 16:29:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索