Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高品质数据之谜。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实行室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高品质数据（WIT400M），而非模型或者损失函数本身。虽然3

自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。我们相信CLIP的创新和成功来自其高品质数据（WIT400M），而非模型或者损失函数本身。虽然3年来CLIP有大量的后续研究，但并未有研究通过对CLIP进行严格的消融实行来了解数据、模型和训练的关系。

CLIP原文仅有简短的数据处理描绘，而后续工作依靠已经训练好的CLIP来重新过滤数据去训练CLIP（学生）模型。更广泛地说，虽然目前的开源着重强调已训练模型权重的公开，而训练数据以及如何从低品质数据获得高品质数据的技巧的公开度却往往并不那么高。

本文带你揭开CLIP的数据品质之谜，为开源社区带来元数据导向的CLIP预训练（MetaCLIP)。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高品质数据之谜。

原文链接：https://arxiv.org/abs/2309.16671

项目链接：https://github.com/facebookresearch/MetaCLIP

论文标题：Demystifying CLIP Data

MetaCLIP数据品质

MetaCLIP根据CLIP原文对数据处理的描绘，提出可扩展到整个CommonCrawl上的数据算法。该算法接受原始互联网数据疏散，打消在元数据上失调的高品质训练数据疏散。

MetaCLIP打消的数据品质源自两个部分：

（1）通过元数据字符串婚配来抓取高品质人类监督文本；

（2）通过失调数据在元数据上的疏散来最大限度保留长尾数据的信号、弱化噪声以及头部疏散的冗余信息。MetaCLIP的元数据来自50万个WordNet和维基百科的视觉观念（visual concept），它们使被婚配的alt文本包含超越人类平均认知水平的监督品质（superhuman level supervision）。

我们的实行严格遵循CLIP设定来控制研究数据疏散对结果的影响。整个数据提取，训练无需已训练CLIP来过滤数据以及潜在未知的来自OpenAI CLIP的数据偏见。

相反的是，MetaCLIP数据算法同时输出训练数据疏散。这使得训练数据更加透明，以方便调试模型。MetaCLIP在400M训练数据上达到ViT-B 70.8%的零样本ImageNet分类精度；使用1B训练数据上达到72.4%；在2.5B训练数据上使用ViT-bigG模型达到82.1%，而整个模型和训练参数并未进行任何更改（比如学习率或批样本量）。

Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高品质数据之谜。