CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

当前许多深度学习分类模型通常在大规模数据中训练以找到足以区分不同类别的特征。 然而,这种方式不可避免地学到伪相关特征(Spurious Correlation),导致训练的分类器在分布偏移(Distribution Shift)下往往会失效。 因此,如何在衡量一个训练好的模型的泛化性(Generalization)一直是一个关键问题。

当前许多深度学习分类模型通常在大规模数据中训练以找到足以区分不同类别的特征。

然而,这种方式不可避免地学到伪相关特征(Spurious Correlation),导致训练的分类器在分布偏移(Distribution Shift)下往往会失效。因此,如何在衡量一个训练好的模型的泛化性(Generalization)一直是一个关键问题。

现有方法通常利用Accuracy-on-the-Line作为模型泛化性的一个指标,即利用验证集的top-1 accuracy来衡量模型在分布偏移下的性能,该指标在同类模型中较为有效,但面对不同类型的模型(如视觉模型和视觉语言模型)时,往往无法统一而有效地预测泛化性能。

卡内基梅隆大学等机构的研究人员提出了一种新的泛化性评估方法:利用类层次结构(Class Hierarchy)中的最低公共祖先距离(Lowest Common Ancestor Distance, LCA Distance)来判断模型是否学到了更「合理」的特征。

CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

论文地址:https://arxiv.org/pdf/2407.16067

项目地址:https://elvishelvis.github.io/papers/lca/

同时,通过基于LCA距离构建的额外损失函数,可以在OOD测试集上显著提高模型准确率,最高可达6%,且对分布内性能无负面影响。研究还发现,VLM学习到的特征分布更接近人类的语义定义,为解释VLM泛化性更好的现象提供了新的视角。

该研究已被ICML 2024接收为Oral Presentation,论文的第一作者史佳现任Google旗下自动驾驶公司Waymo研究工程师,从事基础模型(Foundation Models)的研究与应用;论文为史佳在卡耐基梅隆大学攻读计算机视觉硕士期间的研究成果;指导教授孔庶现任澳门大学助理教授。

判别式学习:伪相关特征的陷阱

大多数分类模型只关注训练数据中区分不同类别的所有元素(例如背景颜色、有无天空等),而不考虑这些元素是否与类别语义定义一致。

导致模型易于依赖训练数据中的伪相关特征,比如:

  • 模型可能将「草地」这一背景特征作为「鸵鸟」类别的主要依据,因为在训练集中鸵鸟常出现于草地背景下。
  • 然而,当测试集中出现的鸵鸟来自非草地背景(如卡通图像或雕塑)时,这些伪相关特征会使模型的泛化性能下降。

相比之下,具备更强泛化性的模型会关注诸如「长腿」和「长颈」等更符合人类对鸵鸟语义定义的特征,而非依赖背景等伪相关信息。

LCA距离:衡量泛化性能的新视角

研究人员认为,通过语义层次结构(如WordNet)可更准确衡量模型是否学到语义一致的特征。

LCA距离的思路

LCA距离用于衡量两个类在给定的语义层次结构中的距离。例如,类别「鸵鸟」与「火烈鸟」的语义比「鸵鸟」与「猎豹」的语义距离更接近。

当衡量真实类别与预测类别时,更小的LCA距离意味着即使模型预测错误,也更倾向于预测与真实类别在语义上更为接近的类别,从而体现模型对更符合语义特征的关注。

LCA距离为何有效?

LCA距离本质上反映了模型与人类先验知识的对齐程度(alignment),能展示模型学习的特征是否符合人类语义定义。语义更接近的错误预测(即更小的LCA距离)意味着模型学到了更具泛化性的特征。

CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

当模型学到与人类语义定义更一致的特征时,即便预测错误,也更可能落在语义相近的类别上

传统「Accuracy-on-the-Line」的局限性

过去,「Accuracy-on-the-Line」假设认为模型在分布内(In-Distribution, ID)测试集上的准确率可用于预测其在分布外(Out-of-Distribution,OOD)测试集上的性能。

对传统视觉模型(Vision Models,VMs)而言,这种关系在一定程度上成立。然而,引入视觉-语言模型(Vision-Language Models,VLMs)后,情况出现了转变。

VLMs使用大规模多模态数据和不同的训练范式(如从互联网图像与文本中进行训练)。

结果显示,VLMs在ID准确率较低的同时展现出更高的OOD准确率,并与VMs形成了两条截然不同的趋势线(如下图左图所示),破坏了Accuracy-on-the-Line中的线性关系。因此,传统的ID准确率指标已无法统一衡量这两类模型的泛化性能。

LCA-on-the-Line:LCA距离是一种更统一的泛化性指标

通过LCA距离分析模型错误预测的语义距离,可判断模型是否依赖于伪相关特征。实验显示,分布内测试集上的LCA距离与模型在OOD测试集上的性能之间存在强相关性。

在实验中,研究对象包括36个VMs和39个VLMs,以ImageNet为分布内测试集(ID dataset),并在包括ImageNet-Sketch、ObjectNet在内的五个分布偏移测试集(OOD datasets)上测试。结果显示:

  1. 恢复线性关系:与传统ID准确率不同,LCA距离在所有OOD测试集上均表现出更强的线性相关性(如下图右图所示)。例如,在ObjectNet上,LCA距离与OOD性能的相关性达到0.95,而ID准确率仅为0.52。
  2. VLMs的优势:尽管部分VLMs在ID数据上的表现不及VMs,但其LCA距离明显更低,显示出在泛化性上的明显优势。

CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

LCA距离是一种更统一的泛化性指标

LCA距离通过软标签提升模型泛化性能

传统分类任务中,模型通常采用单热编码(One-Hot Encoding)交叉熵损失(Cross-Entropy Loss)训练。这隐含了一个强假设:真实类别之外的所有类别相互等同,且应赋予相同的低概率。

单热编码过度强调类别间的区分,这可能导致模型即使在语义相近的类别(如「猫」和「狗」)之间,也努力最大化分类边界,从而增加对伪相关特征(如背景)的依赖,而忽略了类别间的共享特征。

为了解决此问题,研究人员基于LCA距离引入软标签(Soft Labels),为语义更近的类别赋予更高权重。例如,真实类别为「狗」时,与其语义接近的「猫」可能获得0.7的权重,而与「飞机」仅有0.1。

这一策略使模型的学习目标得到正则化,引导其关注语义一致的特征,从而减少对伪相关特征的依赖。

CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

实验显示,LCA距离引导的软标签可显著提升模型在OOD测试集上的泛化性能,准确率可提升最多6%,且不影响ID准确率。

泛化到任何数据集:从WordNet到隐式层次结构

虽然LCA距离最初依赖WordNet等预定义类层次结构,但并非所有数据集都有现成的层次结构。对此,本研究论文提出了一种简单的自动生成隐式层次结构(Latent Hierarchy)的方法:

  1. 特征提取:使用预训练模型提取每个类别的平均特征向量。
  2. 层次聚类:对这些特征进行分层K-mean聚类,构建类别关系的层次结构。
  3. LCA距离计算:基于隐式层次结构计算类别间的LCA距离。

CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

实验显示,使用不同预训练模型生成的隐式层次结构所计算的LCA距离在OOD泛化性能预测(下图左图)与提升(下图右图)方面与基于WordNet的层次结构具有类似效果,说明LCA距离具有普适性,能够适应无预定义层次结构的数据集。

CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

为什么VLM泛化性更好?

此项研究还为解释VLM泛化性能优势提供了新的思路:VLM的高层次特征分布更符合人类语义定义。

实验显示,使用VLM生成的隐式层次结构所生成的软标签在提升模型泛化性能方面优于VM。

这说明VLM所学习的特征分布更接近人类语义,从而在OOD场景下表现更为出色。

CMU等提出超实用「模型泛化性」指标,分布外准确率提升6% | ICML 2024 Oral

X轴反映了不同的预训练模型生成的隐式结构提高模型泛化性的程度,由此可见,VLM生成的隐式结构能够更好的提高模型泛化性。

总结与展望

LCA距离是统一的泛化性指标

只依赖模型预测的类别间LCA距离,不受训练数据分布、模型结构或temperature等参数的影响。因此,它能够统一衡量包括VM和VLM在内的多种模型的泛化能力,并且计算高效。

LCA距离可提升泛化性能

基于LCA距离引入软标签可以引导模型关注与人类定义更为语义一致的特征,从而有效减少对伪相关特征的依赖,并有望在few-shot、预训练(pre-trained)等场景中加速模型收敛。

LCA距离提供了解释VLM泛化性能的新思路

实验显示VLM所学习的特征分布更贴近人类语义定义,帮助解释为何VLM在OOD测试中表现更优。

LCA距离体现了模型与人类先验知识的对齐

本文研究中使用的WordNet可替换为任何包含先验信息的语义层级或知识图谱,这一特性有望应用于其他与对齐(alignment)相关的任务。

相关资讯

如何为深度学习选择优秀 GPU ?

Hello folks,我是 Luga,今天我们继续来聊一下人工智能生态相关技术 - 用于加速构建 AI 核心算力的 GPU 硬件技术。 众所周知,对于绝大多数的深度学习模型的训练,尤其是参数规模较为庞大的模型,其往往是整个开发流程中最耗时、资源消耗最大的环节。 在传统的 CPU .

保真度高达~98%,广工大「AI+光学」研究登Nature子刊,深度学习赋能非正交光复用

编辑 | X通道之间的正交性在光复用中扮演着关键的角色。它确保了不同通道之间的信号不会相互干扰,从而实现了高效的数据传输。因此,光复用系统可以同时传输多个通道的数据,提高了光纤的利用率。然而,它不可避免地施加了复用容量的上限。在此,广东工业大学通感融合光子技术教育部重点实验室开发一种基于深度神经网络的多模光纤(MMF)上的非正交光复用,称为散斑光场检索网络(Speckle light field retrieval network,SLRnet),它可以学习包含信息编码的多个非正交输入光场与其对应的单强度输出之间的

Nature子刊,快10倍,基于Transformer的逆向蛋白质序列设计方法

编辑 | 萝卜皮借助深度学习的进步,蛋白质设计和工程正以前所未有的速度发展。然而,目前的模型无法在设计过程中自然地考虑非蛋白质实体。在这里,瑞士洛桑联邦理工学院(EPFL)的研究人员提出了一种完全基于原子坐标和元素名称的几何 transformer 的深度学习方法,该方法可以根据不同分子环境所施加限制的主链支架,预测蛋白质序列。使用该方法,研究人员可以以高成功率生产出高热稳定性、催化活性的酶。这有望提高蛋白质设计流程的多功能性,以实现所需的功能。该研究以「Context-aware geometric deep l