作者 | 哈佛大学、纽约大学团队
编辑 | ScienceAI
公平性在深度学习中是一个关键问题,尤其是在调理范围,这些模型影响着诊疗和治疗决策。尽管在仅限视觉范围已对公平性进行了钻研,但由于缺乏用于钻研公平性的调理视觉-言语(VL)数据集,调理VL模型的公平性仍未被探索。
为了弥补这一钻研空白,我们介绍了第一个公平的视觉-言语调理数据集(FairVLMed),它提供了详细的人口统计属性、真实标签和临床条记,以便深入检查VL基础模型中的公平性。
应用FairVLMed,我们对两个广泛应用的VL模型(CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然图片和调理图片范围都有预训练,涵盖了四个不同的受护卫属性信息。
我们的结果突出显示了所有VL模型中的明显成见,亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和言语这些受护卫属性中的首选组别。为了减轻这些成见,我们提出了FairCLIP,一种基于optimal-transport的方法,通过减少整体样本分布与每个人口统计组之间的Sinkhorn距离,实现了本能和公平性之间的有利折衷。
作为首个钻研公平性的VL数据集,FairVLMed对钻研模型公平性实现既具有伦理意识又在临床上有效的机器学习模型的潜力。
在这里分享一篇哈佛大学和纽约大学钻研团队的CVPR 2024论文: 「FairCLIP: Harnessing Fairness in Vision-and-Language Learning」。
在本次工作中, 我们提出了开创性的关于多模态视觉言语大模型的公平性的钻研, 针对这项钻研我们收集了第一个带有公平性族裔指标的视觉言语调理大型数据集, 并且提出了针对视觉言语预训练的方法FairCLIP来尝试提升不同组别的公平性 (让不同组别的准确率接近)。
论文地址: https://arxiv.org/pdf/2403.19949.pdf
代码地址: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP
数据集网站:https://ophai.hms.harvard.edu/datasets/harvard-fairvlmed10k/
数据集下载链接: https://drive.google.com/drive/u/1/folders/1bkeifigwOAfnsLvup9mJOSNeA3WsvA2l
Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集 更多公平性数据集。
Lab的数据集主页:https://ophai.hms.harvard.edu/datasets/
钻研背景
近年来,公平性在深度学习范围受到了越来越多的关注。这一点尤其重要,特别是在调理范围,这些深度学习模型影响着诊疗和治疗决策。这些模型中与种族、性别或社会经济地位等因素相关的成见可能导致调理服务差距和不利的患者结果。
因此,确保这些模型无成见不仅是道德和法律要求,也是确保患者安全和调理公平的必要条件。这使得在调理计算机视觉范围中的公平性成为一个关键且迫切的问题,对于提供公平的调理服务至关重要。
先前的钻研已经发现了基于深度学习的医学图象模型中的成见,主要集中在胸部X光诊疗上。与这些仅限视觉的模型不同,近期视觉-言语(VL)基础模型的兴起设定了跨越广泛任务范围的新基准。然而,尽管这些VL模型表现出色,它们的公平性仍然不明确。
鉴于仅限视觉的模型存在成见,以及临床医学报告的人工编写特性,VL模型可能会进一步加剧公平性问题。因此,随着深度学习范围向多模态基础模型的转移,审视视觉和文本的相互作用如何影响算法结果的公平性变得越来越关键。然而,进行此类调查的当前环境受限于缺乏包含全面人口统计信息的VL数据集,现有的公共VL数据集主要关注胸部X光。
先前的钻研已经突出显示,应用这些数据集钻研公平性面临挑战,因为它们的真实标签是从放射学报告中自动提取的,可能由于标签噪声导致不准确的公平性结论。此外,由于这些数据集主要不是为了公平性设计的,它们只提供少数人口统计特征,限制了进行跨多个维度的全面公平性钻研的潜力。更进一步,放射学报告主要关注对成像数据的直接观察,很少包含额外的特定于患者的信息,不代表大多数临床文本,因此限制了它们在医学VL模型公平性钻研中的实用性。
为了弥补这一钻研差距,我们介绍了第一个用来钻研公平性的视觉-言语调理数据集(简称FairVLMed),它提供了详细的人口统计属性、真实标签和临床医学报告,以促进对VL基础模型内公平性的深入检查。
FairVLMed包含了10,000名患者的记录,每个记录都与一张SLO视网膜图象和一份用于诊疗青光眼的临床医学报告配对,同时包括如年龄、性别、种族、族裔、首选言语和婚姻状况等详细的受护卫属性。
与放射学报告不同,我们数据集中的临床医学报告提供了更为详细的信息,不仅包括图象描述,还包括药物、非影像测试结果和家族史等丰富的非影像临床信息。因此,这些临床医学报告更具代表性,更适合用于钻研医学VL模型的公平性。
青光眼影响着全球数百万人,它体现了公平诊疗模型的需求。及时检测对于避免不可逆转的视力损失至关重要。然而,许多患者由于这种疾病的无症状性质和眼科护理的障碍而未被诊疗。此外,未诊疗的问题在少数族裔中尤为突出。例如,以往的钻研表明,相比于白人群体,黑人社区的个体未诊疗和未治疗的青光眼的可能性高4.4倍,这凸显了解决调理差异的重要性。
深度学习系统对于改善调理保健具有重大潜力。然而,在这些深度学习系统临床实施之前,解决潜在的公平性问题是必要的,以确保公平的调理服务提供。
在这项工作中,我们应用两种广泛应用的VL方法(即CLIP和BLIP2)在FairVLMed上进行了广泛的公平性分析。我们的实验结果揭示了基于种族、性别、族裔和言语的各种群体之间存在明显准确性差异。
为了解决这些公平性问题,我们引入了一种基于optimal transport的方法,命名为FairCLIP。FairCLIP旨在通过优化Sinkhorn距离来增强公平性,从而使整体样本特征分布与每个人口统计组的特征分布对齐。
我们的主要贡献可以总结如下:
我们介绍了第一个公平的视觉-言语调理数据集(FairVLMed),它具有详细的人口统计属性、真实标签和临床医学报告,用于钻研VL基础模型的公平性。应用FairVLMed,我们对两个广泛应用的VL模型(即CLIP和BLIP2)进行了全面的公平性分析,这些模型在自然和调理范围都进行了预训练,涉及四个不同的受护卫属性。我们的结果突出显示了所有VL模型中的明显成见,亚洲人、男性、非西班牙裔和西班牙语者分别是种族、性别、族裔和言语这些受护卫属性中的首选亚组。我们提出了一种名为FairCLIP的基于optimal transport的方法,它在本能和公平性方面都明显优于CLIP。
如何获得大量的配对的视觉言语调理数据
本钻研中的数据来自2015至2022年间青光眼服务的受试者来自哈佛医学院的马萨诸塞眼耳医院。本钻研将包含了三类数据:(1)扫描激光眼底摄影(SLO)眼底图象;(2)人口身份群体信息;以及(3)由眼科医生撰写的去标识化临床条记,以提供青光眼诊疗的总结。
SLO眼底图象是评估青光眼等疾病引起的视网膜损伤的有价值标志。每张SLO眼底图象都与六个人口身份属性相关联,包括年龄、性别、种族、族裔、首选言语和婚姻状况。附带的临床条记长度不一,这些条记可能详细描述评估、治疗计划和诊疗策略,并被认为与SLO眼底图象中的视觉语义相对应。
图1展示了两个SLO眼底图象及临床条记的示例。受试者被分为非青光眼(通过视野(VF)测试测量的视觉功能正常:VF平均偏差≥-1 dB且VF青光眼半视野测试和模式标准偏差(PSD)结果正常)和青光眼类别(通过VF测试测量的视觉功能异常:VF平均偏差<-3 dB且VF青光眼半视野测试和PSD结果异常)。
受护卫信息Deidentify
原始临床条记可能包含受护卫的敏感信息,如青光眼诊疗日期、患者姓名、电话号码、电子邮件地址、物理位置、机构等。我们通过以下三个步骤去标识这些敏感信息。
首先,我们应用Microsoft的Presidio工具对所有临床条记进行匿名处理,将敏感信息替换为相应的占位符(例如,PERSON NAME, PHONE NUMBER, LOCATION),以便保持原始句子结构和连贯性。
然后,我们应用规则匹配并去标识Presidio未完全识别的受护卫信息(例如,物理地址)。
最后,去标识化的临床医学报告由四位医学专家进一步验证。特别是,每份临床条记都由一位专家检查,必要时将敏感信息手动替换为相应的占位符。
数据特征
FairVLMed数据集包括来自10,000名受试者的10,000个样本。它被划分为7,000个训练样本、1,000个验证样本和2,000个测试样本。
数据集的平均年龄为60.9 ± 16.2岁。数据集包括来自三个主要群体的样本:亚洲人,819个样本;黑人,1,491个样本;白人,7,690个样本。在性别方面,女性占受试者的56.3%,其余为男性。种族分布以90.6%的非西班牙裔、4.0%的西班牙裔和5.4%的未指定为特点。
在首选言语方面,92.5%的受试者偏好英语,1.7%偏好西班牙语,0.8%偏好其他言语,5.0%未知。从婚姻状况角度看,57.4%已婚或有伴侣,26.4%单身,6.6%经历过离婚,1.0%法律分居,6.1%丧偶,2.5%未指定。去标识化后,临床条记的词数从11到332词不等,平均词数为147词。
用来提升视觉言语基础模型公平性的方法FairCLIP
如上图所示,我们提出的FairCLIP框架旨在预训练阶段提高公平性。这是通过最小化不同种族群体(或其他基于属性的群体)之间视觉和言语特征相关性M_{I,i}的概率分布之间的差异来实现的。
其中 d 是一个距离函数 是计算上不可行的潜在分布。我们在方程中应用基于批次的分布,B_a表示批次中的样本来自群体 a。
为了优化目标,一种直接的方式是最小化两个分布之间的Kullback–Leibler (KL) 散度。然而,KL散度不对称且不满足三角不等式,因此不是真正的距离度量。相反,我们遵循文献引用,最小化两个分布之间的Sinkhorn距离。Sinkhorn距离是一种概率度量和Wasserstein距离的变种。两个分布之间的Sinkhorn距离定义为:
Sinkhorn损失将被添加到CLIP在预训练阶段应用的损失中,以优化CLIP的公平性。
实验
我们采用两种类型的评估策略——– linear probing and zero-shot transfer。对于linear probing,我们遵循官方的MAE实现,在CLIP和BLIP2的视觉特征上分别训练一个线性分类器。类似于MAE,在线性分类器前我们应用了一个BatchNorm层,并采用了LARS优化器,基础学习率为0.1,权重衰减为0,批量大小为512。对于zero-shot transfer , 我们采用了和CLIP原文一致的做法。
表2展示了linear probing的结果,检查了各种本能(AUC)和公平性(DPD、DEOdds、ES-AUC)指标,以及在每个四个受护卫属性内的个别子群体中报告了群组AUC得分。我们主要关注随后分析中的ES-AUC指标,因为它捕捉到了整体本能以及公平性的概念——这两者对于安全关键的调理应用都很重要。表2展示了各种受护卫属性中VL本能的差异,以及不同VL预训练范围(自然图象 vs. 调理图象)和VL预训练方法(CLIP vs. BLIP2)对模型本能和公平性的影响。
表3比较了CLIP与FairCLIP在两种不同架构(ViTB/16和ViT-L/14)以及四种不同受护卫属性上的zero-shot transfer的准确性。CLIP和FairCLIP都是通过不带监督信息(即标签)的图象和临床条记对进行微调的。然后,得到的模型在分类任务中进行评估。CLIP在种族、性别、族裔和言语等属性的群组AUC中表现出明显差异,表明在青光眼检测中存在成见。总体而言,FairCLIP在公平性指标(DPD、DEOdds)以及各种人口子群的ES-AUC和AUC分数方面,都明显优于CLIP。
表5显示了更多的端到端微调结果,进一步验证了FairCLIP的有效性。这些实证发现表明,优化整体样本分布与特定子群分布之间的距离,有效地提高了公平性,表明了一个在解决和减轻固有成见方面有前景的方向。
为了解耦图象和文本特征的好处,我们对BLIP2预训练模型进行线性探测,应用仅限视觉或(视觉+言语)特征。表4展示了以ES-AUC为衡量标准的本能-公平性权衡。我们注意到,除了言语外,多模态特征在所有受护卫属性上都一致地改善了本能-公平性权衡。这凸显了VL模型有效利用了临床文本特征,尤其是在种族属性上观察到最明显的收益。
为了调查不同视觉编码器对BLIP2模型公平性的影响,我们应用了两种不同的预训练编码器——1)在自然范围训练的CLIP,而2)在调理范围训练的PMC-CLIP。图3b中的结果显示,PMC-CLIP在所有四个受护卫属性上都优于CLIP,尤其是在种族子群上的收益最为明显。我们注意到,专门针对调理的LLM摘要器和视觉编码器一致地改善了VL模型的本能-公平性权衡,尤其是在种族属性上的改善最为明显。
Beutel等人引入了一种公平性方法,该方法应用对抗性损失来防止模型不准确地预测敏感属性。这种方法旨在确保模型在不依赖其敏感属性的情况下预测图象的标签,从而减少分类中的成见。图3c展示了CLIP、带对抗性损失的CLIP(CLIP w/ Adv)和FairCLIP之间的本能比较。带对抗性训练的CLIP(CLIP w/ Adv)的本能并不一致地超过所有属性中标准CLIP的本能。相反,FairCLIP一致地优于CLIP。这种本能上的变化可以归因于对抗性训练在保持每个属性等同预测准确性方面的固有挑战。另一方面,FairCLIP应用Sinkhorn损失,有效地鼓励所有样本的分布相对于每个组的分布的均匀性。
下面展示了更多的结果在文章补充材料之中。
总结
鉴于调理范围对公平性的关键需求,我们引入了第一个钻研公平性的视觉-言语调理数据集(FairVLMed),用于钻研调理VL基础模型的公平性。
我们对FairVLMed的全面公平性分析揭示了所有VL模型中存在的明显成见。为了解决这些成见,我们提出了FairCLIP,一种基于optimal transport的方法,有效地平衡了本能和公平性。
注:封面来自网络