AI在线 AI在线

模态编码器 | 最强CLIP模型EVA-CLIP-18B

作者:Goldma
2025-04-08 03:00
来自智源王鑫龙团队的工作,将EVA-CLIP模型参数扩展至18B,简单看下结果,EVA-CLIP-18B性能远超其他模型。 项目地址:。 首先,随着大型语言模型(LLMs)参数量的增长至千亿级别,与其配套的视觉基础模型却未能同步扩展,这种不对等限制了多模态应用的整体效能。

模态编码器 | 最强CLIP模型EVA-CLIP-18B

来自智源王鑫龙团队的工作,将EVA-CLIP模型参数扩展至18B,简单看下结果,EVA-CLIP-18B性能远超其他模型。

项目地址:https://github.com/baaivision/EVA

这篇工作的研究动机旨在解决当前多模态模型发展中的两个关键问题。首先,随着大型语言模型(LLMs)参数量的增长至千亿级别,与其配套的视觉基础模型却未能同步扩展,这种不对等限制了多模态应用的整体效能。其次,现有的顶级CLIP模型虽然在特定任务中表现出色,但它们依赖难以获取的大规模内部数据集进行训练,并且在零样本学习等挑战性任务上的表现还有待提高。

01、方法介绍

图片

这篇论文最大的核心贡献是提出了一种“弱到强”(weak-to-strong)的视觉模型缩放方法,通过逐步增大的模型规模来持续提升视觉模型的性能。这种方法的核心思想是从一个较小的初始模型开始,逐步训练更大的模型,从而实现性能的稳步提升。

简单来说,从一个大的EVA视觉模型开始,它从一个小的EVA-CLIP模型中提取知识,然后这个小模型作为视觉编码器初始化,以稳定和加速更大EVA-CLIP模型的训练。之后,闭环扩展循环继续进行,从中提取出更大的EVA模型。在整个模型扩展周期中,训练数据集保持相对固定,以展示特定于模型规模扩展的有效性。

  • 初始模型的选择小模型作为教师:选择了一个较小的EVA-CLIP模型(EVA-02-CLIP-E/14+)作为教师模型。这个小模型经过预训练,能够生成高质量的图像-文本对齐特征。大模型作为学生:使用一个较大的EVA模型(EVA-18B)作为学生模型,通过知识蒸馏(knowledge distillation)从教师模型中学习。
  • 训练过程大模型(EVA-18B)通过重建小模型(EVA-02-CLIP-E/14+)生成的掩码图像-文本对齐特征来进行训练。这种训练方式有助于大模型学习到小模型中的关键特征,同时避免过拟合。小模型生成的特征用于初始化大模型的视觉编码器,这有助于稳定和加速大模型的训练过程。随后,利用EVA模型作为EVA-CLIP预训练的视觉编码器初始化,使用图像-文本对比学习目标训练。
  • 循环缩放在训练完一个较大规模的模型后,可以将其用作下一个更大模型的教师模型,继续进行知识蒸馏。这一过程形成了一个闭环的缩放循环,逐步提升模型的性能。
  • 数据集EVA-CLIP-18B基于公开可用的数据集LAION-2B和COYO-700M进行训练,这些数据集的规模远小于其他最先进CLIP模型所使用的内部数据集(如DFN-5B和WebLI-10B)。

02、实验结果

零样本图像分类

EVA-CLIP在所有27个零样本图像分类基准测试中表现出色。EVA-CLIP-18B在所有27个基准测试中平均达到了80.7%的top-1准确率。这些结果显著优于之前最佳的开源DFN5B-CLIP-H/14+(提高了+1.5%),以及现有的最大CLIP模型InternVL-C(提高了+2.7%)。

图片

零样本图像-文本检索

EVA-CLIP-18B在所有检索基准测试中平均召回率为87.8%,显著优于其他模型

图片

零样本视频分类

图片

鲁棒性

通过扩展EVA-CLIP显著增强了视觉表示的鲁棒性。EVA-CLIP在ImageNet变体(包括对抗性样本)之间的性能下降最小

图片

Linear Probing

ImageNet-1K上的线性探测(Linear Probing)是一种评估预训练模型特征提取能力的方法。这个任务的目的是测试一个模型在没有经过特定任务微调(fine-tuning)的情况下,直接在一个新的数据集上的表现。

通过在相同的测试集上进行线性探测,可以比较不同预训练模型的性能,了解哪个模型能更好地捕捉到对后续任务有用的特征。

图片

3D表示

图片

消融

视频数据:消融研究表明,将视频数据纳入训练可以显著提高模型在视频分类任务上的性能,这表明视频数据为模型提供了额外的信息,有助于改善其对动作和事件的理解。

图像分辨率:提高图像分辨率可以提升模型的零样本性能,因为更高分辨率的图像提供了更多的细节信息,有助于模型更好地学习和泛化。

图片

图片

03、总结

很有意思的一篇文章,虽然文章很短,但是从弱到强的视觉模型缩放思想,对模型进行渐进式扩展,这种方式不仅模型训练稳定并且性能也在持续提高,非常巧妙一个训练方法。在大模型时代,可能非常值得实验。

相关资讯

模态编码器 | 超强开源CLIP模型OpenCLIP

来自LAION、UC伯克利、HuggingFace等的工作,这篇工作的研究动机也很简单,CLIP 模型在多模态领域展现出了巨大潜力,但原始 CLIP 模型未完全开源,限制了其更广泛的应用和深入研究。 OpenCLIP 旨在通过开源的方式,让更多开发者能够无门槛地利用这一先进模型,推动多模态技术在各个领域的应用和发展。 模型架构和原始CLIP无异,下面简单介绍这篇工作中的一些研究规律和实验结果。
4/8/2025 4:20:00 AM
Goldma

模态编码器|EVA改进之EVA-02

来自智源曹越团队在EVA的优化改进方面的工作EVA-02,项目地址::在CV领域,训练、调优和评估非常大的视觉模型需要大量的计算资源,限制了许多研究人员和开发者的参与。 因此,本研究主要目的是提供一种高效且性能强大的预训练方法,不仅能够在多种下游任务中展现出色的迁移学习能力,而且还能显著减少参数数量和计算成本。 01、模型架构EVA-02的基础是一个改进版的纯Transformer架构,该架构在原始ViT的基础上进行了若干重要的修改,以更好地适应大规模预训练任务的需求。
4/7/2025 6:30:00 AM
Goldma

模态编码器|CLIP详细解读

下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma