ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

编辑 | ScienceAI作者 | Yu Tian 团队在人工智能(AI),特别是医疗AI领域中,解决公平性问题对于确保公平的医疗结果至关重要。最近,增强公平性的努力引入了新的方法和数据集。然而,在域转移的背景下,公平性问题几乎没有得到探索,尽管诊所常常依赖不同的成像技术(例如,不同的视网膜成像方式)进行患者诊断。本文提出了FairDomain,这是首次系统性研究算法在域转移下的公平性,我们测试了最先进的域适应(DA)和域泛化(DG)算法,用于医学图像分割和分类任务,旨在了解bias如何在不同域之间转移。我们还提

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

编辑 | ScienceAI

作者 | Yu Tian 团队

在人工智能(AI),特别是医疗AI领域中,解决公平性问题对于确保公平的医疗结果至关重要。

最近,增强公平性的努力引入了新的方法和数据集。然而,在域转移的背景下,公平性问题几乎没有得到探索,尽管诊所常常依赖不同的成像技术(例如,不同的视网膜成像方式)进行患者诊断。

本文提出了FairDomain,这是首次系统性研究算法在域转移下的公平性,我们测试了最先进的域适应(DA)和域泛化(DG)算法,用于医学图像分割和分类任务,旨在了解bias如何在不同域之间转移。

我们还提出了一种新的即插即用的公平身份注意力(FIA)模块,通过使用自注意力机制,根据人口统计属性调整特征重要性,以提高各种DA和DG算法的公平性。

此外,我们还整理并公开了第一个关注公平性的domain-shift数据集,该数据集包含同一患者群体的两种配对成像方式的医学分割和分类任务,以严格评估域转移场景下的公平性。排除源域和目标域之间人口分布差异的混淆影响,将使域转移模型性能的量化更加清晰。

我们的广泛评估表明,所提出的FIA在所有域转移任务(即DA和DG)中显著增强了模型在不同人口统计特征下的公平性和性能,在分割和分类任务中均优于现有方法。

在这里分享ECCV 2024中稿的工作「FairDomain: Achieving Fairness in Cross-Domain Medical Image Segmentation and Classification」

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

文章地址:https://arxiv.org/abs/2407.08813

代码地址:https://github.com/Harvard-Ophthalmology-AI-Lab/FairDomain

数据集网站:https://ophai.hms.harvard.edu/datasets/harvard-fairdomain20k

数据集下载链接: https://drive.google.com/drive/folders/1huH93JVeXMj9rK6p1OZRub868vv0UK0O?usp=sharing

Harvard-Ophthalmology-AI-Lab 致力于提供高质量公平性数据集 更多公平性数据集 请点击lab的数据集主页:https://ophai.hms.harvard.edu/datasets/

背景

近年来,深度学习在医学影像领域的进步极大地提升了分类和分割任务的效果。这些技术有助于提高诊断准确性、简化治疗规划,最终改善患者的健康状况。然而,在不同医疗环境中部署深度学习模型时,面临一个重要挑战,即算法固有的偏见和对特定人口群体的歧视,这可能会削弱医疗诊断和治疗的公平性。

近期的一些研究开始解决医学影像中算法偏见的问题,开发了一些增强深度学习模型公平性的方法。然而,这些方法通常假设训练和测试阶段的数据分布保持不变,这种假设在实际医疗场景中往往不成立。

例如,不同的初级保健诊所和专科医院可能依赖于不同的成像技术(例如,不同的视网膜成像方式)进行诊断,导致显著的域转移,进而影响模型性能和公平性。

因此,在实际部署中,必须考虑域转移,并学习能够在跨域场景中保持公平性的模型。

虽然已有文献广泛探讨了域适应和域泛化,但这些研究主要集中在提高模型准确性,而忽视了确保模型在不同人口群体中提供公平预测的关键性。尤其在医疗领域,决策模型直接影响人类健康和安全,因此研究跨域公平性具有重要意义。

然而,目前仅有少量研究开始探讨跨域公平性的问题,而且这些研究缺乏系统的全面调查,通常仅关注域适应或泛化,而很少同时关注两者。此外,现有的研究主要解决医学分类问题,而忽视了在域转移下同样重要的医学分割任务。

为了解决这些问题,我们介绍了FairDomain,这是医学影像领域第一个系统性探索域转移下算法公平性的研究。

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

我们通过多个最先进的域适应和泛化算法进行广泛实验,评估这些算法在不同人口统计属性下的准确性和公平性,并了解公平性如何在不同领域之间转移。

我们的观察揭示了在不同的医学分类和分割任务中,源域和目标域之间的群体表现差异显著加剧。这表明需要设计以公平性为导向的算法来有效解决这一紧迫问题。

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

为了弥补现有偏见缓解工作的不足,我们引入了一种新的多功能公平身份注意力(FIA)机制,该机制设计为可以无缝集成到各种域适应和泛化策略中,通过人口统计属性(例如,种族群体)派生的自注意力来协调特征重要性,以促进公平性。

FairDomain基准的开发面临的一个关键挑战是缺乏一个能够真实反映现实世界医疗领域中域转移的医学影像数据集,而这种域转移通常是由于不同的成像技术引起的。

现有的医学数据集中,源域和目标域之间的患者人口统计差异引入了混淆,难以区分观察到的算法偏见是由于人口统计分布变化还是固有的域转移所致。

为了解决这个问题,我们策划了一个独特的数据集,包括同一患者队列的配对视网膜眼底图像,分别采用两种不同的成像方式(En face 和 SLO 眼底图像),专门用于分析域转移场景下的算法偏见。

总结我们的贡献:

1、首次系统性探索了医学影像中域转移下的算法公平性。

2、引入了公平身份注意力技术,以提高域适应和泛化中的准确性和公平性。

3、创建了一个大规模的、用于公平性研究的配对医学分割和分类数据集,专门研究域转移下的公平性问题。

数据收集和质量控制

受试者是在2010年至2021年间从哈佛医学院的一个大型学术眼科医院中选取的。本研究中探讨了两个跨域任务,即医学分割和医学分类任务。对于医学分割任务,数据包括以下五种:

1、En-face 眼底图像扫描;

2、SLO 眼底图像扫描;

3、患者的人口统计信息;

4、青光眼诊断;

5、杯盘掩膜注释。

特别地,杯盘区域的像素注释首先通过 OCT 设备获取,OCT 制造商的软件将 3D OCT 中的盘边缘分割为 Bruch’s 膜开口,并将杯边缘检测为内界膜(ILM)与平面相交处的最小表面积的交点。

由于 Bruch’s 膜开口和内界膜与背景的高对比度,这些边界可以很容易地分割出来。由于 OCT 制造商软件利用了3D 信息,杯盘分割通常是可靠的。

考虑到初级护理中 OCT 设备的有限可用性和高成本,我们提出了一种将 3D OCT 注释转移到 2D SLO 眼底图像的方法,以提高早期青光眼筛查的效率。

我们使用NiftyReg 工具精确对齐 SLO 眼底图像与 OCT 衍生的像素注释,生成大量高质量的 SLO 眼底掩膜注释。

这一过程经过一组医学专家的验证,注册成功率达 80%,简化了初级护理设置中更广泛应用的注释过程。我们利用这些对齐和手动检查的注释,结合 SLO 和 En face 眼底图像,研究分割模型在域转移下的算法公平性。

对于医学分类任务,数据包括以下四种:

1、En-face 眼底图像扫描;

2、SLO 眼底图像扫描;

3、患者的人口统计信息;

4、青光眼诊断。

医学分类数据集中的受试者根据视野测试结果分为正常和青光眼两类。

数据特征

医学分割数据集包含 10000 名受试者的 10000 个样本。我们将数据分为训练集 8000 个样本,测试集 2000 个样本。患者的平均年龄为 60.3 ± 16.5 岁。

数据集包含六个人口统计属性,包括年龄、性别、种族、族裔、首选语言和婚姻状况。人口统计分布如下:

性别:女性占 58.5%,男性占 41.5%;

种族:亚洲人占 9.2%,黑人占 14.7%,白人占 76.1%;

族裔:非西班牙裔占 90.6%,西班牙裔占 3.7%,未知占 5.7%;

首选语言:英语占 92.4%,西班牙语占 1.5%,其他语言占 1%,未知占 5.1%;

婚姻状况:已婚或有伴侣占 57.7%,单身占 27.1%,离婚占 6.8%,法律分居占 0.8%,丧偶占 5.2%,未知占 2.4%。

类似地,医学分类数据集包含 10000 名受试者的 10000 个样本,平均年龄为 60.9 ± 16.1 岁。我们将数据分为训练集 8000 个样本,测试集 2000 个样本。人口统计分布如下:

性别:女性占 72.5%,男性占 27.5%;

种族:亚洲人占 8.7%,黑人占 14.5%,白人占 76.8%;

族裔:非西班牙裔占 96.0%,西班牙裔占 4.0%;

首选语言:英语占 92.6%,西班牙语占 1.7%,其他语言占 3.6%,未知占 2.1%;

婚姻状况:已婚或有伴侣占 58.5%,单身占 26.1%,离婚占 6.9%,法律分居占 0.8%,丧偶占 1.9%,未知占 5.8%。

这些详细的人口统计信息为深入研究跨域任务中的公平性提供了丰富的数据基础。

用来提升跨域AI模型公平性的方法Fair Identity Attention (FIA)

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

问题定义

域适应(Domain Adaptation, DA)和域泛化(Domain Generalization, DG)是机器学习模型开发中的关键技术,旨在应对模型从一个特定域应用到另一个域时可能出现的变异性。

在医学影像领域,DA 和 DG 技术对于创建能够稳健处理不同医疗机构、成像设备和患者群体之间的变异性的模型至关重要。本文旨在探讨域转移背景下的公平性动态,并开发确保模型在适应或泛化到新域时保持公平和可靠性的方法。

我们旨在开发一个方法函数 f,以减轻模型从源域转移到目标域时常见的公平性恶化。此类恶化主要由于域转移可能放大数据集中现有的偏见,特别是那些与性别、种族或族裔等人口统计属性相关的偏见。

为了解决这个问题,我们提出了一种基于注意力机制的方法,旨在识别和利用与下游任务(如分割和分类)相关的图像特征,同时考虑人口统计属性。

图 3 显示了所提出的公平身份注意力模块的架构。该模块首先通过处理输入图像和输入统计属性标签,以获得输入图像embedding E_i  和属性embedding E_a。然后将这些嵌入加上位置embedding E_p。详细的计算公式如下:

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

通过计算query和key的点积,我们提取与当前特征属性相关的相似度矩阵。然后使用该矩阵与value的点积提取每个特征属性在下游任务中显著的特征。这个过程由以下公式表示:

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

其中 D是一个缩放因子,以避免 softmax 函数中的值过大。

随后,一个残差连接将E_i添加到注意力的输出中,以保持输入信息的完整性。最后,一个归一化层和一个多层感知器(MLP)层进一步提取特征。在对这两个层的输出进行另一次残差操作后,我们得到了公平注意力模块的最终输出。

公平身份注意力机制是一种强大且多功能的工具,旨在提高模型性能,同时解决公平性问题。通过明确考虑人口统计属性(如性别、种族或族裔),它确保学习到的表示不会无意中放大数据中存在的偏见。

其架构允许它作为一个插件组件无缝集成到任何现有网络中。这种模块化性质使得研究人员和实践者能够在不需要对底层架构进行大量修改的情况下,将公平身份注意力集成到他们的模型中。

因此,公平身份注意力模块不仅有助于提高分割和分类任务中的模型准确性和公平性,还通过促进数据集中不同群体的公平待遇来推动可信AI落地。

实验

域转移中的算法公平性

在我们的实验中,我们首先分析了在域转移背景下的公平性,具体关注于杯盘分割任务。杯盘分割是指在眼底图像中精确描绘视杯和视盘的过程,这对于计算杯盘比(CDR)至关重要,是评估青光眼进展和风险的关键参数。

这一任务在医学影像领域尤为重要,尤其是在诊断和管理青光眼等眼科疾病时。由于视杯是视盘的一个重要子区域,我们将分割任务重新定义为视杯和边缘(视杯和视盘边缘之间的组织区域)分割,以避免因视杯和视盘之间的大面积重叠而导致的表现失真。

我们研究了在三种不同的人口统计特征(性别、种族和族裔)下的公平性表现,涉及两个不同的领域:从光学相干断层扫描(OCT)中获取的 En face 眼底图像和扫描激光眼底图像(SLO)。

在随后的实验中,我们选择 En face 眼底图像作为源域,SLO 眼底图像作为目标域。其原因在于,与 SLO 眼底图像相比,En face 眼底图像在专科眼科护理环境中更为常见,因此数据的可用性显著更高。

因此,我们选择将 En face 眼底图像作为源域,将 SLO 眼底图像作为目标域。对于分类任务,我们使用这两个域的眼底图像作为源域和目标域,分类为正常和青光眼两类。

评估指标

我们使用 Dice 和IoU指标来评估分割性能,使用受AUC来评估分类任务的性能。这些传统的分割和分类指标虽然能反映模型的表现,但并未内在地考虑到各人口统计群体之间的公平性。

为了解决医学影像中模型性能和公平性之间的潜在权衡,我们使用新颖的公平性缩放性能(ESP)指标来评估分割和分类任务的性能和公平性。

令 ∈{Dice,IoU,AUC,…}M in {Dice,IoU, AUC, . . .\}M∈{Dice,IoU,AUC,…} 表示适用于分割或分类的通用性能指标。传统评估通常忽略人口统计身份属性,从而错过了关键的公平性评估。为了将公平性纳入其中,我们首先计算性能差异Δ,定义为各人口统计群体的指标与总体性能的集体偏差,其公式如下:

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

当不同群体的性能公平性达到时,Δ接近零,反映出最小的差异。然后,ESP 指标可以公式化如下:

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

该统一指标有助于全面评估深度学习模型,强调不仅要关注其准确性(如通过 Dice、IoU 和 AUC 等测量),还要关注其在不同人口群体间的公平性。

Cup-Rim Segmentation Results under Domain Shifts

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

Glaucoma Classification Results under Domain Shifts

ECCV2024 | 哈佛团队开发FairDomain,实现跨域医学图像分割和分类中的公平性

总结

本文聚焦于人工智能(尤其是医疗AI)中的公平性问题,这是实现公平医疗的关键。

由于诊所可能使用不同的成像技术,域转移中的公平性问题仍然基本未被探索。我们的工作引入了FairDomain,这是一个关于域转移任务中算法公平性的全面研究,包括域适应和泛化,涉及医学分割和分类两个常见任务。

我们提出了一种新颖的即插即用的Fair Identity Attention(FIA)模块,通过注意力机制根据人口统计属性学习特征相关性,从而在域转移任务中增强公平性。

我们还创建了第一个以公平性为中心的跨域数据集,其中包含同一患者队列的两种配对的成像图片,以排除人口统计分布变化对模型公平性的混淆影响,从而精确评估域转移对模型公平性的影响。

我们的公平身份注意力模型可以改善现有的域适应和泛化方法,使模型性能在考虑公平性的情况下得到提升。

注:封面图由AI生成。

给TA打赏
共{{data.count}}人
人已打赏
理论

如何让细胞进行计算?国内四高校提出生物计算元器件设计全新方法,登Cell

2024-8-1 16:06:00

理论

「两全其美」,从头设计分子,深度学习架构S4用于化学语言建模

2024-8-2 15:20:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索