来自智源王鑫龙团队的工作,将EVA-CLIP模型参数扩展至18B,简单看下结果,EVA-CLIP-18B性能远超其他模型。
项目地址:https://github.com/baaivision/EVA
这篇工作的研究动机旨在解决当前多模态模型发展中的两个关键问题。首先,随着大型语言模型(LLMs)参数量的增长至千亿级别,与其配套的视觉基础模型却未能同步扩展,这种不对等限制了多模态应用的整体效能。其次,现有的顶级CLIP模型虽然在特定任务中表现出色,但它们依赖难以获取的大规模内部数据集进行训练,并且在零样本学习等挑战性任务上的表现还有待提高。
01、方法介绍
这篇论文最大的核心贡献是提出了一种“弱到强”(weak-to-strong)的视觉模型缩放方法,通过逐步增大的模型规模来持续提升视觉模型的性能。这种方法的核心思想是从一个较小的初始模型开始,逐步训练更大的模型,从而实现性能的稳步提升。
简单来说,从一个大的EVA视觉模型开始,它从一个小的EVA-CLIP模型中提取知识,然后这个小模型作为视觉编码器初始化,以稳定和加速更大EVA-CLIP模型的训练。之后,闭环扩展循环继续进行,从中提取出更大的EVA模型。在整个模型扩展周期中,训练数据集保持相对固定,以展示特定于模型规模扩展的有效性。
- 初始模型的选择小模型作为教师:选择了一个较小的EVA-CLIP模型(EVA-02-CLIP-E/14+)作为教师模型。这个小模型经过预训练,能够生成高质量的图像-文本对齐特征。大模型作为学生:使用一个较大的EVA模型(EVA-18B)作为学生模型,通过知识蒸馏(knowledge distillation)从教师模型中学习。
- 训练过程大模型(EVA-18B)通过重建小模型(EVA-02-CLIP-E/14+)生成的掩码图像-文本对齐特征来进行训练。这种训练方式有助于大模型学习到小模型中的关键特征,同时避免过拟合。小模型生成的特征用于初始化大模型的视觉编码器,这有助于稳定和加速大模型的训练过程。随后,利用EVA模型作为EVA-CLIP预训练的视觉编码器初始化,使用图像-文本对比学习目标训练。
- 循环缩放在训练完一个较大规模的模型后,可以将其用作下一个更大模型的教师模型,继续进行知识蒸馏。这一过程形成了一个闭环的缩放循环,逐步提升模型的性能。
- 数据集EVA-CLIP-18B基于公开可用的数据集LAION-2B和COYO-700M进行训练,这些数据集的规模远小于其他最先进CLIP模型所使用的内部数据集(如DFN-5B和WebLI-10B)。
02、实验结果
零样本图像分类
EVA-CLIP在所有27个零样本图像分类基准测试中表现出色。EVA-CLIP-18B在所有27个基准测试中平均达到了80.7%的top-1准确率。这些结果显著优于之前最佳的开源DFN5B-CLIP-H/14+(提高了+1.5%),以及现有的最大CLIP模型InternVL-C(提高了+2.7%)。
零样本图像-文本检索
EVA-CLIP-18B在所有检索基准测试中平均召回率为87.8%,显著优于其他模型
零样本视频分类
鲁棒性
通过扩展EVA-CLIP显著增强了视觉表示的鲁棒性。EVA-CLIP在ImageNet变体(包括对抗性样本)之间的性能下降最小
Linear Probing
ImageNet-1K上的线性探测(Linear Probing)是一种评估预训练模型特征提取能力的方法。这个任务的目的是测试一个模型在没有经过特定任务微调(fine-tuning)的情况下,直接在一个新的数据集上的表现。
通过在相同的测试集上进行线性探测,可以比较不同预训练模型的性能,了解哪个模型能更好地捕捉到对后续任务有用的特征。
3D表示
消融
视频数据:消融研究表明,将视频数据纳入训练可以显著提高模型在视频分类任务上的性能,这表明视频数据为模型提供了额外的信息,有助于改善其对动作和事件的理解。
图像分辨率:提高图像分辨率可以提升模型的零样本性能,因为更高分辨率的图像提供了更多的细节信息,有助于模型更好地学习和泛化。
03、总结
很有意思的一篇文章,虽然文章很短,但是从弱到强的视觉模型缩放思想,对模型进行渐进式扩展,这种方式不仅模型训练稳定并且性能也在持续提高,非常巧妙一个训练方法。在大模型时代,可能非常值得实验。