AI在线 AI在线

模态编码器 | 超强开源CLIP模型OpenCLIP

作者:Goldma
2025-04-08 04:20
来自LAION、UC伯克利、HuggingFace等的工作,这篇工作的研究动机也很简单,CLIP 模型在多模态领域展现出了巨大潜力,但原始 CLIP 模型未完全开源,限制了其更广泛的应用和深入研究。 OpenCLIP 旨在通过开源的方式,让更多开发者能够无门槛地利用这一先进模型,推动多模态技术在各个领域的应用和发展。 模型架构和原始CLIP无异,下面简单介绍这篇工作中的一些研究规律和实验结果。

模态编码器 | 超强开源CLIP模型OpenCLIP

来自LAION、UC伯克利、HuggingFace等的工作,这篇工作的研究动机也很简单,CLIP 模型在多模态领域展现出了巨大潜力,但原始 CLIP 模型未完全开源,限制了其更广泛的应用和深入研究。OpenCLIP 旨在通过开源的方式,让更多开发者能够无门槛地利用这一先进模型,推动多模态技术在各个领域的应用和发展。

图片

模型架构和原始CLIP无异,下面简单介绍这篇工作中的一些研究规律和实验结果。

01、方法介绍

这篇工作最大的贡献是CLIP中扩展规律研究:通过训练包含数十亿图像文本对的数据集上的CLIP模型,识别出多个下游任务(如零样本分类、检索、线性探测和端到端微调)中的幂律扩展规律。

图片

  1. 幂律关系:在两个任务中,模型性能随计算量的增加都遵循幂律关系。这意味着性能的提升并不是线性的,而是随着计算量的增加而逐渐减缓
  2. 数据量的影响:增加数据量对性能提升有显著影响。特别是在数据量较小的情况下,增加数据量可以显著提高性能。
  3. 模型规模的影响:更大的模型通常能够从更多的数据中受益,表现出更好的性能。然而,当数据量达到一定规模后,模型规模的增加对性能提升的效果会逐渐减弱。
  4. 任务差异:在零样本分类任务中,OpenAI的CLIP模型表现更好;而在零样本检索任务中,OpenCLIP模型表现更优。这表明不同的任务可能对模型和数据有不同的需求。

02、模型训练

  • 模型规模:选择了几种不同规模的CLIP架构,包括ViT-B/32、ViT-B/16、ViT-L/14、ViT-H/14和ViT-g/14作为视觉编码器。
  • 数据规模:使用了LAION-80M(LAION-400M的子集)、LAION-400M和LAION-2B三个不同的数据集。
  • 训练样本数量:训练过程中使用的样本数量分别为30亿、130亿和340亿。

03、实验结果

零样本迁移和鲁棒性

模型规模的影响:随着模型规模的增加,零样本分类性能持续提升。下图显示了不同模型规模下的零样本分类准确率,可以看到,模型规模越大,准确率越高。

随着模型规模和数据量的增加,模型在这些鲁棒性基准数据集上的性能也有所提升,尤其是在复杂的噪声和扰动条件下。

图片

  • 数据量的影响:增加训练数据量也能显著提高零样本分类性能。表16展示了不同数据量下的VTAB零样本分类结果,可以看出,使用更大的数据集(如LAION-2B)可以显著提升模型在多个任务上的表现。

图像检索

模型规模的影响:随着模型规模的增加,图像检索性能持续提升。下图显示了不同模型规模下的图像检索性能,可以看到,模型规模越大,检索效果越好。

图片

数据量的影响:增加训练数据量也能显著提高图像检索性能。下表展示了不同数据量下的MS-COCO和Flickr30K图像检索结果,可以看出,使用更大的数据集(如LAION-2B)可以显著提升模型的检索性能。

图片

图片

图片

linear probing

模型规模的影响:随着模型规模的增加,线性探测的性能持续提升。图2和图3展示了不同模型规模下的线性探测结果,可以看到,模型规模越大,线性探测的准确率越高。

图片

  • 数据量的影响:增加训练数据量也能显著提高线性探测性能。表5展示了不同数据量下的线性探测结果,可以看出,使用更大的数据集(如LAION-2B)可以显著提升模型的线性探测性能。图片

微调

使用预训练的CLIP模型作为初始化,然后在ImageNet数据集上进行端到端微调

模型规模的影响:随着模型规模的增加,端到端微调的性能持续提升。下图展示了不同模型规模下的端到端微调结果,可以看到,模型规模越大,微调后的准确率越高。

图片

数据量的影响:增加训练数据量也能显著提高端到端微调性能。使用更大的数据集(如LAION-2B)可以显著提升模型的微调性能。

04、总结

作为 CLIP 模型的开源实现,在更大的数据集上进行了训练,具有更多的模型参数,并且提供了更多的模型架构选择,总结出对比图像语言模型的缩放定律,为多模态领域的研究和开发提供了重要资源。其基于 Transformer 架构和对比学习方法,让模型能够有效学习图像与文本之间的关联,推动了多模态技术的发展。

相关资讯

模态编码器 | 最强CLIP模型EVA-CLIP-18B

来自智源王鑫龙团队的工作,将EVA-CLIP模型参数扩展至18B,简单看下结果,EVA-CLIP-18B性能远超其他模型。 项目地址:。 首先,随着大型语言模型(LLMs)参数量的增长至千亿级别,与其配套的视觉基础模型却未能同步扩展,这种不对等限制了多模态应用的整体效能。
4/8/2025 3:00:00 AM
Goldma

模态编码器|CLIP详细解读

下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma

模态编码器|EVA探索掩码视觉表征学习的极限

今天来看一篇经典的视觉表征学习的方法EVA,来自智源研究院发表在2023年CVPR的一篇工作。 项目地址::自然语言处理(NLP)领域通过扩展预训练语言模型(PLMs)取得了革命性的成功,作者希望将这种成功从语言领域转移到视觉领域,即扩展一个视觉中心的基础模型,以便于视觉和多模态下游任务。 另外,视觉模型预训练和扩展的方法主要依赖于监督或弱监督训练,需要数百万个(通常是不可公开访问的)标注数据。
4/7/2025 4:30:00 AM
Goldma