通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

平常检测恣意旨在鉴别明显偏离失常数据分布的平常值，在产业检验、医学诊断、视频监控和欺诈检测等多个规模都发挥了重要作用。传统的平常检测方法主要依赖于描述失常数据分布以进行正平常样本的区分。然而，对于实际的运用而言，平常检测也必要了解数据的高层语义，从而深入了解 “什么是平常”。要实现更准确且智能的平常检测，我们必要关注以下关键步骤：1. 了解多样数据类型和类别不同规模的数据集包含各种数据类型和类别，如图象、视频、点云、时间序列等。每种数据类型可能必要不同的平常检测方法，每个物体类别可能对应不同的失常标准，因此深入了解

平常检测恣意旨在鉴别明显偏离失常数据分布的平常值，在产业检验、医学诊断、视频监控和欺诈检测等多个规模都发挥了重要作用。传统的平常检测方法主要依赖于描述失常数据分布以进行正平常样本的区分。然而，对于实际的运用而言，平常检测也必要了解数据的高层语义，从而深入了解 “什么是平常”。

要实现更准确且智能的平常检测，我们必要关注以下关键步骤：

1. 了解多样数据类型和类别

不同规模的数据集包含各种数据类型和类别，如图象、视频、点云、时间序列等。每种数据类型可能必要不同的平常检测方法，每个物体类别可能对应不同的失常标准，因此深入了解数据的多样性至关重要。

2. 确定失常状态标准

一旦了解了数据的类型和类别，我们必要推断失常状态的标准。这必要高级数据语义信息的了解，以确保我们可以正确鉴别失常数据的特征和模式。

3. 评估数据的符合度

最后，我们必要评估供应的数据是否符合已建立的失常数据分布。任何偏离这些数据分布的状况都可以被归类为平常。

最近，大型多模态模型（LMM）迅猛发展，其中 OpenAI 最近推出的 GPT-4V (ision) 表现最为出色，具有强大的多模态感知才能，在场景了解，图片生成等多个恣意中都取得了良好表现。我们认为，LMM 的出现为通用平常检测的研究供应了新的范式和新的机会。

为了评估 GPT-4V 在通用平常检测中的功能，来自华中科技大学、密歇根大学和多伦多大学的研究者联合进行了一项研究，在涉及 4 个数据模态，9 个平常检测恣意的 15 个平常检测数据集上对 GPT-4V 进行了全面的尝试。具体而言，尝试的数据集包括图象、点云、视频、时序等模态，并涵盖了产业图象平常检测 / 定位，医疗图象平常检测 / 定位，点云平常检测，逻辑平常检测，行人平常检测，交通平常检测，时序平常检测等 9 个平常检测恣意。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

论文地址：https://arxiv.org/pdf/2311.02782.pdf

项目地址：https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

观察与分析

本文在多种模态和规模的平常检测数据集上对 GPT4V 的功能进行了尝试。我们认为，GPT4V 已经初步具备了多模态的通用平常检测才能。具体而言，GPT-4V 不仅可以无效了解多样数据类型和类别，而且可以建模失常数据的空间分布，并评估尝试数据的分布状况。

除此以外，GPT-4V 在平常检测恣意中还具有以下特点：

GPT-4V 可以在零 / 单样本下处理多模态、多规模的平常检测恣意

多模态平常检测：GPT-4V 可无效处理多种模态数据的平常检测恣意。例如，它在鉴别图象、点云、MRI、X-ray 等数据模态上均表现出了不俗的平常检测才能。多模态平常检测才能使 GPT-4V 可以突破传统单模态平常检测器的限制，完成现实世界的繁杂平常检测恣意。

多规模平常检测：GPT-4V 在产业、医疗、行人、交通和时间序列平常检测等多个规模表现优异。

零 / 单样本下的平常检测：GPT-4V 在零样本及单样本（即供应了一张失常的参考图片）恣意中均表现不俗。在没有参考图象的状况下，GPT-4V 可以无效地使用语言提醒信息来检测平常。当供应失常参考图象时，GPT-4V 可以更好的对齐文本格式的失常标准与失常的图象内容，其平常检测准确性进一步提高。

GPT-4V 可以了解平常检测恣意所需的全局和细粒度语义

全局语义了解才能：GPT-4V 对全局语义的了解才能表现在它可以鉴别整体的平常模式或行为。例如，在交通平常检测中，它可以分辨失常的交通流和不规则事件之间的区别，并且供应了关于平常检出的详细解释。这种全局了解使其非常适合在开放世界中鉴别偏离失常分布的平常点。

细粒度语义了解才能：GPT-4V 对细粒度语义的了解才能在一些状况下表现出色，使得它不仅可以检测平常，还可以精确地在繁杂数据中定位平常。例如，在产业图象平常检测中，它可以准确定位细节，如倾斜的蜡烛烛芯、瓶口周围的轻微划痕。这种细粒度了解增强了它在繁杂数据中检测微小平常的才能，从而提高了其整体检测。

GPT-4V 具备自动推理平常检测的才能

GPT-4V 可以根据繁杂的失常标准自动推理、拆分子恣意。例如，在逻辑平常检测中，GPT-4V 可以了解所给的失常图象标准，并拆分为子恣意，依次检验图象内容是否满足指定内容。这种内在的推理才能增强了其平常检测结果的可解释性，使其成为了解和解决通用平常检测的无效工具。

GPT-4V 可以通过增加提醒进一步增强平常检测才能

评估结果显示，供应更多文本和图象信息对 GPT-4V 的平常检测功能有积极影响。通过增加类别信息、人类专业知识、参考图象，模型获得了更多的上下文信息，平常检测功能也得到显著提升。该特点允许用户通过供应相关的补充信息来微调和增强模型的功能。

GPT-4V 在实际运用中可能受到限制，但仍具有潜力

本报告发现 GPT-4V 在实际运用中仍面临一些挑战。例如，GPT-4V 可能在处理产业运用中的繁杂场景时面临困难，导致其出现错误检测。医疗规模的伦理约束也使其在判断肿瘤等平常状况时趋于保守。但我们相信它在各种平常检测恣意中仍然具有潜力。为了无效解决这些挑战，可能必要进一步增强、专门的精细调整或补充技术。总结而言，GPT-4V 在通用平常检测中具有明显潜力，有望开启平常检测恣意的高层次感知时代。

运用场景展现

产业图象平常检测

产业图象平常检测旨在维护产品质量，是制造过程的重要环节。近年来，许多方法在此规模蓬勃发展，其中一些方法着眼于开发适用于任意产品类别的统一模型。本研究探讨了 GPT-4V 在产业图象平常检测中的运用，包括对不同类型的信息进行尝试，以及展现其功能和局限性。

我们从产业图象中选择了几个示例，如瓶子和蜡烛的图象。即使只供应简单的语言提醒，GPT-4V 可以无效地鉴别这些图象中的平常，展现了其才能和多样性。此外，GPT-4V 不仅可以检测期望的平常，还可以鉴别微观结构平常。在繁杂状况下，如电路板中的平常检测，GPT-4V 可以鉴别图象中的细节，但也存在一定的局限性。总的来说，GPT-4V 在图象上下文了解和类别特定平常了解方面表现出色。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

产业图象平常定位

与产业图象平常检测不同，产业图象平常定位旨在精确鉴别平常的位置。为了实现这一目标，我们采用了与 SoM（Set-of-mark）类似的方法，使用图象 – 掩模对来提醒 GPT-4V。我们研究了 GPT-4V 在不同场景下的表现，展现了其在细粒度平常定位方面的才能和局限性。

我们展现了 GPT-4V 在产业图象平常定位中的功能，包括定位弯曲的电线、坚果上的空洞以及鉴别电路板平常。GPT-4V 在一些状况下可以准确鉴别平常位置，例如可以无效定位坚果中的空洞，并且由于结合了视觉提醒技术，GPT-4V 将平常定位问题转化为了对掩膜的分类问题，无效降低了问题繁杂度，且提升了定位精度。因此，结合视觉提醒技术和 GPT-4V 可无效解决产业图象平常定位问题。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

点云平常检测

点云平常检测在产业规模具有重要作用。CPMF 提出了一种新方法，将点云转化为深度图象，以利用图象基础模型来提高点云平常检测的功能。我们借助 CPMF，将点云转为深度图象，从而使得 GPT-4V 可处理点云平常检测恣意。

我们展现了 GPT-4V 在点云平常检测中的功能，包括鉴别袋圈中的小突起、检测绳子上的平常以及查找工件中的平常。GPT-4V 可以无效地鉴别这些平常，但在某些状况下也存在局限性，特别是在渲染质量较低的状况下。总的来说，GPT-4V 在点云平常检测中表现出了潜力。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

逻辑平常检测

逻辑平常检测恣意由 MVTec LOCO 数据集提出。该恣意通常出现在装配过程中，必要鉴别各个组件是否正确组合。现有的逻辑平常检测方法通常依赖于视觉全局 – 局部对应关系，但本质上并没有真正了解图象内容。我们研究了 GPT-4V 在逻辑平常检测中的运用，探讨了其对图象内容的了解才能。

我们展现了 GPT-4V 在逻辑平常检测中的功能，包括鉴别繁杂的逻辑规则、检测逻辑平常并供应详细的解释。尽管 GPT-4V 在大多数状况下可以准确鉴别逻辑平常，但在某些繁杂状况下存在一定的局限性，尤其是对于细节问题。不过，结合多轮对话和特定语言提醒有望显著改善 GPT-4V 在这些状况下的功能。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

医学图象平常检测

医学图象平常检测是医学影像规模的关键恣意，旨在鉴别不符合预期数据分布的平常值。我们研究了 GPT-4V 在医学图象平常检测中的运用，包括不同疾病和成像模式的医学图象。我们尝试了 GPT-4V 的泛化才能，揭示了其在医学图象平常检测中的功能和局限性。

我们展现了 GPT-4V 在医学图象平常检测中的功能，包括鉴别不同疾病和成像模式的平常图象。即使只供应简单的语言提醒，GPT-4V 可以无效地鉴别平常，并供应详细的解释。此外，引入更多信息，如疾病信息和专业知识，可以进一步提高 GPT-4V 的功能。然而，GPT-4V 在某些状况下可能会产生错误的平常检测，因此仍必要医生的最终判断。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

医学图象平常定位

在检测到医学平常后，必要进一步精确定位医学图象中存在的平常，例如病灶等。对医学图象平常的准确的定位可无效帮助临床医生了解病理的程度和性质。然而，在现实世界的医学图象平常定位恣意中使用 GPT-4V 直接预测平常掩膜十分困难。受到 SoM 的启发，我们希望尝试 GPT-4V 模型在视觉提醒下的平常定位才能。

结合 SoM，我们标定了医疗图象中可能存在的平常位置。在图象中的视觉提醒指导下，GPT-4V 倾向于学习和描述标记周围的区域。对于容易鉴别和定位的案例，GPT-4V 可以清楚地区分平常区域和背景。但在一个人工合成平常的案例中，由于感兴趣区域与背景具有相似的纹理和形状，GPT4V 的判断出现了偏差。这表明该模型在对抗攻击和繁杂背景下仍必要增强其检测和定位才能。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

交通检测

交通检测是城市交通管理和自动驾驶规模的关键恣意，它旨在监测交通状况，检测交通违规行为和危险状况。我们研究了 GPT-4V 在交通检测中的运用，包括车辆鉴别、交通标志鉴别和交通违规检测。我们尝试了 GPT-4V 在不同场景下的功能，展现了其潜力和局限性。

我们展现了 GPT-4V 在交通检测中的功能，包括鉴别不同类型的车辆、检测各种交通标志和鉴别交通违规行为。GPT-4V 可以无效地处理这些恣意，尤其是在规范场景下。然而，在繁杂交通环境中，功能可能会下降，因为它必要了解并解释繁杂的情境。通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

行人检测

行人检测是自动驾驶、安全监控和智能城市等规模的关键恣意，它旨在鉴别图象或视频中的行人。我们研究了 GPT-4V 在行人检测中的运用，尝试了其对行人的鉴别才能和功能。

我们展现了 GPT-4V 在行人检测中的功能，包括检测行人在不同背景下的才能。GPT-4V 通常可以鉴别行人，但在繁杂背景下可能会出现错误。与专门的行人检测模型相比，功能可能相对较差，但它的优势在于它可以供应更多的语言解释。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

时序检测

时序检测是一种涉及到时间序列数据的平常检测恣意，例如传感器数据、金融时间序列等。我们研究了 GPT-4V 在时序检测中的运用，尝试了其在分析和检测时间序列平常方面的才能。

我们展现了 GPT-4V 在时序检测中的功能，包括检测传感器数据中的平常、金融交易数据中的平常等。GPT-4V 在分析时间序列数据方面表现出色，可以鉴别不同类型的平常状况。然而，必要注意的是，时序检测通常必要更多的规模专业知识，而 GPT-4V 在这些状况下可能必要结合专家的建议。

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

结论

GPT-4V 在产业图象平常检测、产业图象平常定位、点云平常检测、逻辑平常检测、医学图象平常检测、交通检测、行人检测和时序检测等规模都展现出了出色的潜力。它可以了解多模态数据，对图象内容进行无效了解，并在很多状况下都能准确检测并解释平常。然而，在繁杂场景中，GPT-4V 的平常检测才能仍然存在一定的局限性。综合来看，GPT-4V 为通用平常检测供应了全新的研究范式，但其实际运用仍必要进一步的研究和改进。

{{userData.name}}已认证

通用平常检测新曙光：华科大等揭秘GPT-4V的全方位平常检测表现

李飞飞团队新作：脑控机器人做家务，让脑机接口具备少样本进修能力

GPT-4比你更会问题目：让大模型自主复述，打破与人类对话的壁垒

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩