AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
零样本非常十分检测(ZSAD)允许检测模型仅利用辅助数据进行训练,从而在没有任何目标数据集训练样本的情况下检测非常十分。这在因各种原因(如数据隐私问题)无法获取训练数据时非常关键。
然而,这项任务面临的挑战在于,模型需要可以或许跨差别范围泛化非常十分检测才智,尤其是远景东西、非常十分区域及背景特征(比如差别产品或器官上的缺欠或肿瘤)在差别应用中可能大相径庭。
为了改进 CLIP 模型,来自浙江大学、新加坡管理大学、哈佛大学的研究者联合提出 AnomalyCLIP,使其能在差别范围中更准确地进行零样本非常十分检测。AnomalyCLIP 的核心思想是进修一种与东西不相关的文本提醒技术(object-agnostic learning),这种技术可以或许捕捉到图象中的一般性正常和非常十分特征,而不依赖于任何特定的远景东西,从而在多种语义的东西上实现泛化的非常十分识别。在 17 个来自差别范围(如缺欠检测和医疗成像)的真实世界非常十分检测数据集上进行的大规模实验证明, AnomalyCLIP 在跨域且高度多样化类别语义的数据中实现了卓越的零样本非常十分检测和朋分才智。
论文名称:AnomalyCLIP: Object-agnostic Prompt Learning for Zero-shot Anomaly Detection
文章地址:https://arxiv.org/pdf/2310.18961.pdf
代码地址:https://github.com/zqhang/AnomalyCLIP
背景
传统的非常十分检测格式通常需要在特定应用范围内有可用的训练样本来进修检测模型。然而,在某些情况下,这个假设可能并不成立,比如访问训练数据会违反数据隐私政策,或者目标范围内根本就没有可用的训练数据。
图 1: 差别文本提醒格式的结果对比。
由于差别应用场景中非常十分的视觉外观、远景东西和背景特征存在很大差异,例如差别产品表面的缺欠、差别器官上的病变或肿瘤,或者是工业缺欠与医学图象中肿瘤 / 病变的对比,我们需要可以或许针对这些变化进行准确零样本非常十分检测(ZSAD)的检测模型,这要求模型具有强大的泛化才智。
最近,大型预训练的视觉 – 语言模型(VLMs)在包括非常十分检测在内的多种视觉任务上展示了出色的零样本识别才智。特别是,通过使用数以百万计的图象 – 文本对进行预训练,CLIP 在强化各种下游任务的泛化才智方面发挥了巨大作用。然而,CLIP 这类 VLM 主要是为了进修远景东西的类别语义,而不是图象中的非常十分 / 正常模式,因此它们在理解视觉非常十分 / 正常性方面的泛化才智有限,导致在 ZSAD 本能方面表现不佳。
此外,当前使用的文本提醒格式,如图 1d 和图 1e 所示,无论是手动定义的文本提醒还是可进修的文本提醒,往往会导致提醒文本嵌入偏向于全部特征以实现有效的东西语义对齐,而忽略了通常表现在细节、局部特征中的非常十分。
格式介绍
AnomalyCLIP 旨在通过进修东西不相关的文本提醒来让 CLIP 实现差别范围中的准确 ZSAD,从而捕获图象中的通用正常性和非常十分性,如图 2 所示。AnomalyCLIP 首先为 “正常” 和 “非常十分” 这两个广泛的类别设计了一个简单而普遍有效的可进修的文本提醒模板,然后通过使用辅助数据,结合图象级别和像素级别的损失函数来让提醒嵌入进修图象中存在的通用正常和非常十分模式。
这样,AnomalyCLIP 可以专注于图象中的非常十分区域而非东西的语义,使其可以或许零样本的识别出与辅助数据中相似的非常十分模式。如图 1a 和图 1b 所示,尽管辅助数据和目标数据中远景东西的语义完全差别时,但是其非常十分模式保持相似,例如金属螺母和板材上的划痕、晶体管和 PCB 的错位、差别器官表面的肿瘤 / 病变等。而 CLIP 的文本提醒嵌入在差别范围间的泛化才智有限,如图 1c 所示。差别的是,AnomalyCLIP 进修到的东西不相关的文本提醒嵌入可以或许有效地泛化,识别出跨范围图象中的非常十分,如图 1f 所示。AnomalyCLIP只需要微调一次,就可以或许泛化地捕捉差别东西、场景甚至跨范围的非常十分。其他的没有了。
图 2: AnomalyCLIP 框架图
实验结果
该研究在 17 个公开可用的数据集上进行了大量实验,涵盖了各种工业检测场景和医学成像范围(包括摄影、内窥镜和放射学),以评估 AnomalyCLIP 的本能。在工业检测方面,该研究考虑了 MVTec AD、VisA、MPDD、BTAD、SDD、DAGM 和 DTD-Synthetic 等数据集。在医学成像方面,该研究考虑了皮肤癌检测数据集 ISIC、结肠息肉检测数据集 CVC-ClinicDB 和 CVC-ColonDB、Kvasir、Endo、甲状腺结节检测数据集 TN3k、脑瘤检测数据集 HeadCT、BrainMRI、Br35H 和 COVID-19 检测数据集 COVID-19。最先进的 baseline 包括 CLIP、CLIP-AC、WinCLIP、VAND 和 CoOp。论文附录提供了有关格式和数据预处理的更多细节。
表 1:工业范围零样本非常十分检测本能比较。最佳本能以红色突出显示,次佳本能以蓝色突出显示。†表示结果来自原始论文。(除了 MVTec AD 数据集以外,其他所有结果均由 MVTec AD fine-tuining 得到)
各种工业检测范围的零样本非常十分检测本能
表 1 展示了 AnomalyCLIP 与五种 baseline 在七个工业缺欠数据集上的零样本非常十分检测结果,这些数据集具有非常差别的远景东西、背景和 / 或非常十分类型。AnomalyCLIP 在这些数据集上取得了优越的零样本非常十分检测本能,大部分情况下明显优于其他五种格式。CLIP 和 CLIP-AC 表现较差的原因在于 CLIP 的原始预训练侧重于对齐东西语义而非非常十分语义。WinCLIP 和 VAND 通过使用手动定义的文本提醒获得了更好的结果。另外,CoOp 采用了可进修的提醒来进修全部非常十分语义。然而,这些提醒专注于全部特征,忽略了细粒度的局部非常十分语义,导致它们在非常十分朋分上表现不佳。为了将 CLIP 适应于零样本非常十分检测,AnomalyCLIP 进修了东西不相关的文本提醒,通过全部和局部上下文优化,专注于进修通用的非常十分 / 正常模式,使得模型可以或许有效识别全部和局部的非常十分。得到的提醒还可以推广到来自差别范围的差别数据集。为了提供更直观的结果,该研究在图 3 中可视化了 AnomalyCLIP、VAND 和 WinCLIP 在差别数据集上的非常十分朋分结果。与 VAND 和 WinCLIP 相比,AnomalyCLIP 可以对来自差别工业检测范围的缺欠进行更准确的非常十分朋分。
图 3: AnomalyCLIP 朋分结果
表 2:医疗范围零样本非常十分检测本能比较。最佳本能以红色突出显示,次佳本能以蓝色突出显示。请注意,医疗非常十分检测数据集往往差别时包含像素级和图象级标签,因此评估图象级和像素级医疗非常十分检测的数据集有所差别。
从缺欠数据集到多样化的医学范围数据集的泛化才智
为了评估模型的泛化才智,该研究进一步考察了 AnomalyCLIP 在 10 个差别器官、差别成像设备上的医学图象数据集上的零样本非常十分检测本能。表 2 展示了相关结果,其中包括 AnomalyCLIP、VAND 和 CoOp 等基于进修的格式,均使用 MVTec AD 数据进行fine-tuining。
值得注意的是,像 AnomalyCLIP 和 VAND 这样的格式在各种医学图象数据集上取得了令人满意的零样本非常十分检测本能,即使它们是使用缺欠检测数据集进行调优的。在所有这些格式中,由于其通过东西不相关的提醒进修带来的强大泛化才智,AnomalyCLIP 是表现最佳的。
正如图 3 所示,AnomalyCLIP 可以或许准确检测出差别医学图象中的各种非常十分类型,例如摄影图象中的皮肤癌区域,内窥镜图象中的结肠息肉,超声图象中的甲状腺结节以及 MRI 图象中的脑肿瘤,其在定位非常十分病变 / 肿瘤区域方面的本能明显优于另外两种格式 WinCLIP 和 VAND。这再次证明了 AnomalyCLIP 在医学成像范围高度多样化的东西语义数据集中具有领先的零样本非常十分检测本能。