后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

如何衡量一个视觉模型？又如何选择适合自己需求的视觉模型？MBZUAI和Meta的研究者给出了答案。一直以来，ImageNet 准确率是评价模型功能的主要指标，也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说，这一指标正变得越来越不「够用」。因为计算机视觉模型已变得越来越复杂，从早期的 ConvNets 到 Vision Transformers，可用模型的种类已大幅增加。同样，训练范式也从 ImageNet 上的监视训练发展到自监视学习和像 CLIP 这样的图象 - 文本对训练。ImageNet 并

如何衡量一个视觉模型？又如何选择适合自己需求的视觉模型？MBZUAI和Meta的研究者给出了答案。

一直以来，ImageNet 准确率是评价模型功能的主要指标，也是它最初点燃了深度学习革命的火种。但对于今天的计算视觉领域来说，这一指标正变得越来越不「够用」。

因为计算机视觉模型已变得越来越复杂，从早期的 ConvNets 到 Vision Transformers，可用模型的种类已大幅增加。同样，训练范式也从 ImageNet 上的监视训练发展到自监视学习和像 CLIP 这样的图象 – 文本对训练。

ImageNet 并不能捕捉到差别架构、训练范式和数据所产生的细微差别。如果仅根据 ImageNet 准确率来判断，具有差别属性的模型可能看起来很相似。当模型开始过度拟合 ImageNet 的特异性并使准确率达到饱和时，这种局限性就会变得更加明显。

CLIP 就是个值得一提的例子：尽管 CLIP 的 ImageNet 准确率与 ResNet 相似，但其视觉编码器的稳健性和可迁移性要好得多。这引发了对 CLIP 独特优势的探索和研究，如果当时仅从 ImageNet 指标来看，这些优势并不明显。这表明，分析其他属性有助于发现有用的模型。

此外，传统的基准并不能完全反映模型处理真实世界视觉挑战的能力，例如差别的相机姿势、光照条件或遮挡物。例如，在 ImageNet 等数据集上训练的模型往往很难将其功能应用到现实世界的应用中，因为现实世界的条件和场景更加多样化。

这些问题，为领域内的从业者带来了新的困惑：如何衡量一个视觉模型？又如何选择适合自己需求的视觉模型？

在最近的一篇论文中，MBZUAI 和 Meta 的研究者对这一问题开展了深入讨论。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

论文标题：ConvNet vs Transformer, Supervised vs CLIP:Beyond ImageNet Accuracy

论文链接：https://arxiv.org/pdf/2311.09215.pdf

论文聚焦 ImageNet 准确性之外的模型行为，分析了计算机视觉领域的四个主要模型：分别在监视和 CLIP 训练范式下的 ConvNeXt（作为 ConvNet 的代表）和 Vision Transformer (ViT) 。

所选模型的参数数量相似，且在每种训练范式下对 ImageNet-1K 的准确率几乎相同，确保了比较的公平性。研究者深入探讨了一系列模型特性，如预测误差类型、泛化能力、习得表征的不变性、校准等，重点关注了模型在没有额外训练或微调的情况下显示出的特性，为希望直接利用预训练模型的从业人员提供了参考。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

在分析中，研究者发现差别架构和训练范式的模型行为存在很大差异。例如，模型在 CLIP 范式下训练的分类失误少于在 ImageNet 上训练。不过，监视模型的校准效果更好，在 ImageNet 稳健性基准测试中普遍更胜一筹。ConvNeXt 在分解数据上有优势，但比 ViT 更偏重纹理。同时，有监视的 ConvNeXt 在许多基准测试中显示出色，其可迁移性显示与 CLIP 模型相当。

可以看出，各种模型以独特的方式展现了自己的优势，而这些优势是单一指标无法捕捉到的。研究者强调，需要更详细的评价指标来准确选择特定情境下的模型，并创建与 ImageNet 无关的新基准。

基于这些观察，Meta AI 首席科学家 Yann LeCun 转发了这项研究并点赞：

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

模型选择

对于监视模型，研究者利用了 ViT 的预训练 DeiT3- Base/16，它与 ViT-Base/16 架构相同，但训练方法有所改进；此外还利用了 ConvNeXt-Base。对于 CLIP 模型，研究者利用了 OpenCLIP 中 ViT-Base/16 和 ConvNeXt-Base 的视觉编码器。

请注意，这些模型的功能与最初的 OpenAI 模型略有差别。所有模型检查点都可以在 GitHub 项目主页中找到。详细的模型比较见表 1：

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

对于模型的选择过程，研究者做出了详细解释：

1、由于研究者利用的是预训练模型，因此无法控制训练期间所见数据样本的数量和质量。

2、为了分析 ConvNets 和 Transformers，之前的许多研究都对 ResNet 和 ViT 举行了比较。这种比较通常对 ConvNet 不利，因为 ViT 通常采用更先进的配方举行训练，能达到更高的 ImageNet 准确率。ViT 还有一些架构设计元素，例如 LayerNorm，这些元素在多年前 ResNet 被发明时并没有纳入其中。因此，为了举行更平衡的评价，研究者将 ViT 与 ConvNeXt 举行了比较，后者是 ConvNet 的现代代表，其功能与 Transformers 相当，并共享了许多设计。

3、在训练模式方面，研究者对比了监视模式和 CLIP 模式。监视模型在计算机视觉领域一直保持着最先进的功能。另一方面，CLIP 模型在泛化和可迁移性方面显示出色，并提供了连接视觉和语言表征的特性。

4、由于自监视模型在初步测试中显示出与监视模型类似的行为，因此未被纳入结果中。这可能是由于它们最终在 ImageNet-1K 上举行了有监视的微调，而这会影响到许多特性的研究。

接下来，我们看下研究者如何对差别的属性举行了分析。

分析

模型失误

ImageNet-X 是一个对 ImageNet-1K 举行扩展的数据集，其中包含对 16 个变化要素的详细人工注释，可对图象分类中的模型失误举行深入分析。它采用失误比例度量（越低越好）来量化模型在特定要素上相对于整体准确性的显示，从而对模型失误举行细致入微的分析。ImageNet-X 的结果表明：

1. 相对于监视模型，CLIP 模型在 ImageNet 准确性方面犯的失误更少。

2. 所有模型都主要受到遮挡等复杂要素的影响。

3. 纹理是所有模型中最具挑战性的要素。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

外形 / 纹理毛病

外形 – 纹理毛病会检测模型是否依赖于脆弱的纹理捷径，而不是高级外形线索。这种毛病可以通过结合差别类别的外形和纹理的线索冲突图象来研究。这种方法有助于了解，与纹理相比，模型的决策在多大程度上是基于外形的。研究者对线索冲突数据集上的外形 – 纹理毛病举行了评价，发现 CLIP 模型的纹理毛病小于监视模型，而 ViT 模型的外形毛病高于 ConvNets。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

模型校准

校准可量化模型的预测置信度与其实际准确度是否一致，可以通过预期校准误差 (ECE) 等指标以及可靠性图和置信度直方图等可视化工具举行评价。研究者在 ImageNet-1K 和 ImageNet-R 上对校准举行了评价，将预测分为 15 个等级。在实验中，研究者观察到以下几点：

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

1. CLIP 模型过于自信，而监视模型则略显不足。

2. 有监视的 ConvNeXt 比有监视的 ViT 校准效果更好。

稳健性和可迁移性

模型的稳健性和可迁移性对于适应数据分布变化和新任务至关重要。研究者利用各种 ImageNet 变体对稳健性举行了评价，结果发现，虽然 ViT 和 ConvNeXt 模型的平均功能相当，但除 ImageNet-R 和 ImageNet-Sketch 外，有监视模型在稳健性方面普遍优于 CLIP。在可迁移性方面，通过利用 19 个数据集的 VTAB 基准举行评价，有监视的 ConvNeXt 优于 ViT，几乎与 CLIP 模型的功能相当。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

分解数据

PUG-ImageNet 等分解数据集可以精确控制摄像机角度和纹理等要素，是一种很有前景的研究路径，因此研究者分析了模型在分解数据上的功能。PUG-ImageNet 包含逼真的 ImageNet 图象，姿态和光照等要素存在系统性变化，功能以绝对 top-1 准确率为衡量标准。研究者提供了 PUG-ImageNet 中差别要素的结果，发现 ConvNeXt 在几乎所有要素上都优于 ViT。这表明 ConvNeXt 在分解数据上优于 ViT，而 CLIP 模型的差距较小，因为 CLIP 模型的准确率低于监视模型，这可能与原始 ImageNet 的准确率较低有关。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

变换不变性

变换不变性是指模型能够产生一致的表征，不受输入变换的影响从而保留语义，如缩放或移动。这一特性使模型能够在差别但语义相似的输入中很好地泛化。研究者利用的方法包括调整图象大小以实现比例不变性，移动 crops 以实现位置不变性，以及利用插值位置嵌入调整 ViT 模型的分辨率。

他们在 ImageNet-1K 上通过改变 crop 比例 / 位置和图象分辨率来评价比例、移动和分辨率的不变性。在有监视的训练中，ConvNeXt 的显示优于 ViT。总体而言，模型对规模 / 分辨率变换的稳健性高于对移动的稳健性。对于需要对缩放、位移和分辨率具有较高稳健性的应用，结果表明有监视的 ConvNeXt 可能是最佳选择。

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

总结

总体来说，每种模型都有自己独特的优势。这表明模型的选择应取决于目标用例，因为标准功能指标可能会忽略特定任务的关键细微差别。此外，许多现有的基准都来自于 ImageNet，这也会使评价产生毛病。开发具有差别数据分布的新基准对于在更具现实世界代表性的环境中评价模型至关重要。

以下是本文结论的概括：

ConvNet 与 Transformer

1. 在许多基准上，有监视 ConvNeXt 的功能都优于有监视 ViT：它的校准效果更好，对数据转换的不变性更高，并显示出更好的可迁移性和稳健性。

2. ConvNeXt 在分解数据上的显示优于 ViT。

3. ViT 的外形毛病更大。

监视与 CLIP

1. 尽管 CLIP 模型在可转移性方面更胜一筹，但有监视的 ConvNeXt 在这项任务中显示出了竞争力。这展示了有监视模型的潜力。

2. 有监视模型在稳健性基准方面显示更好，这可能是因为这些模型都是 ImageNet 变体。

3. CLIP 模型的外形毛病更大，与 ImageNet 的准确性相比，分类失误更少。

{{userData.name}}已认证

后Sora时代，CV从业者如何选择模型？卷积还是ViT，监视学习还是CLIP范式

人类偏好优化算法哪家强？跟着高手一文学懂DPO、IPO和KTO

用集中模型生成网络参数，LeCun点赞尤洋团队新研讨

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）