CMU等提出超实用「模型泛化性」指标，分布外准确率提升6%

当前许多深度学习分类模型通常在大规模数据中训练以找到足以区分不同类别的特征。然而，这种方式不可避免地学到伪相关特征（Spurious Correlation），导致训练的分类器在分布偏移（Distribution Shift）下往往会失效。因此，如何在衡量一个训练好的模型的泛化性（Generalization）一直是一个关键问题。

当前许多深度学习分类模型通常在大规模数据中训练以找到足以区分不同类别的特征。

然而，这种方式不可避免地学到伪相关特征（Spurious Correlation），导致训练的分类器在分布偏移（Distribution Shift）下往往会失效。因此，如何在衡量一个训练好的模型的泛化性（Generalization）一直是一个关键问题。

现有方法通常利用Accuracy-on-the-Line作为模型泛化性的一个指标，即利用验证集的top-1 accuracy来衡量模型在分布偏移下的性能，该指标在同类模型中较为有效，但面对不同类型的模型（如视觉模型和视觉语言模型）时，往往无法统一而有效地预测泛化性能。

卡内基梅隆大学等机构的研究人员提出了一种新的泛化性评估方法：利用类层次结构（Class Hierarchy）中的最低公共祖先距离（Lowest Common Ancestor Distance, LCA Distance）来判断模型是否学到了更「合理」的特征。

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6% | ICML 2024 Oral

论文地址：https://arxiv.org/pdf/2407.16067

项目地址：https://elvishelvis.github.io/papers/lca/

同时，通过基于LCA距离构建的额外损失函数，可以在OOD测试集上显著提高模型准确率，最高可达6%，且对分布内性能无负面影响。研究还发现，VLM学习到的特征分布更接近人类的语义定义，为解释VLM泛化性更好的现象提供了新的视角。

该研究已被ICML 2024接收为Oral Presentation，论文的第一作者史佳现任Google旗下自动驾驶公司Waymo研究工程师，从事基础模型（Foundation Models）的研究与应用；论文为史佳在卡耐基梅隆大学攻读计算机视觉硕士期间的研究成果；指导教授孔庶现任澳门大学助理教授。

判别式学习：伪相关特征的陷阱

大多数分类模型只关注训练数据中区分不同类别的所有元素（例如背景颜色、有无天空等），而不考虑这些元素是否与类别语义定义一致。

导致模型易于依赖训练数据中的伪相关特征，比如：

模型可能将「草地」这一背景特征作为「鸵鸟」类别的主要依据，因为在训练集中鸵鸟常出现于草地背景下。
然而，当测试集中出现的鸵鸟来自非草地背景（如卡通图像或雕塑）时，这些伪相关特征会使模型的泛化性能下降。

相比之下，具备更强泛化性的模型会关注诸如「长腿」和「长颈」等更符合人类对鸵鸟语义定义的特征，而非依赖背景等伪相关信息。

LCA距离：衡量泛化性能的新视角

研究人员认为，通过语义层次结构（如WordNet）可更准确衡量模型是否学到语义一致的特征。

LCA距离的思路

LCA距离用于衡量两个类在给定的语义层次结构中的距离。例如，类别「鸵鸟」与「火烈鸟」的语义比「鸵鸟」与「猎豹」的语义距离更接近。

当衡量真实类别与预测类别时，更小的LCA距离意味着即使模型预测错误，也更倾向于预测与真实类别在语义上更为接近的类别，从而体现模型对更符合语义特征的关注。

LCA距离为何有效？

LCA距离本质上反映了模型与人类先验知识的对齐程度（alignment），能展示模型学习的特征是否符合人类语义定义。语义更接近的错误预测（即更小的LCA距离）意味着模型学到了更具泛化性的特征。

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6% | ICML 2024 Oral

当模型学到与人类语义定义更一致的特征时，即便预测错误，也更可能落在语义相近的类别上

传统「Accuracy-on-the-Line」的局限性

过去，「Accuracy-on-the-Line」假设认为模型在分布内（In-Distribution, ID）测试集上的准确率可用于预测其在分布外（Out-of-Distribution，OOD）测试集上的性能。

对传统视觉模型（Vision Models，VMs）而言，这种关系在一定程度上成立。然而，引入视觉-语言模型（Vision-Language Models，VLMs）后，情况出现了转变。

VLMs使用大规模多模态数据和不同的训练范式（如从互联网图像与文本中进行训练）。

结果显示，VLMs在ID准确率较低的同时展现出更高的OOD准确率，并与VMs形成了两条截然不同的趋势线（如下图左图所示），破坏了Accuracy-on-the-Line中的线性关系。因此，传统的ID准确率指标已无法统一衡量这两类模型的泛化性能。

LCA-on-the-Line：LCA距离是一种更统一的泛化性指标

通过LCA距离分析模型错误预测的语义距离，可判断模型是否依赖于伪相关特征。实验显示，分布内测试集上的LCA距离与模型在OOD测试集上的性能之间存在强相关性。

在实验中，研究对象包括36个VMs和39个VLMs，以ImageNet为分布内测试集（ID dataset），并在包括ImageNet-Sketch、ObjectNet在内的五个分布偏移测试集（OOD datasets）上测试。结果显示：

恢复线性关系：与传统ID准确率不同，LCA距离在所有OOD测试集上均表现出更强的线性相关性（如下图右图所示）。例如，在ObjectNet上，LCA距离与OOD性能的相关性达到0.95，而ID准确率仅为0.52。
VLMs的优势：尽管部分VLMs在ID数据上的表现不及VMs，但其LCA距离明显更低，显示出在泛化性上的明显优势。

CMU等提出超实用「模型泛化性」指标，分布外准确率提升6% | ICML 2024 Oral