ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

作者 | 田宇编辑 | 白菜叶近年来,人工智能模型的公道性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公道性对人们的健康和生命至关重要。高质量的医学公道性数据集对促进公道进修钻研非常必要。现有的医学公道性数据集都是针对分类任务的,而没有可用于医学宰割的公道性数据集,但是医学宰割与分类一样都是非常重要的医学 AI 任务,在某些场景宰割甚至优于分类,因为它能够提供待临床医生评价的器官异常的详细空间信息。在最新的钻研中,哈佛大学(Harvard University)的Harvard-Ophthalmolo

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

作者 | 田宇

编辑 | 白菜叶

近年来,人工智能模型的公道性问题受到了越来越多的关注,尤其是在医学领域,因为医学模型的公道性对人们的健康和生命至关重要。高质量的医学公道性数据集对促进公道进修钻研非常必要。

现有的医学公道性数据集都是针对分类任务的,而没有可用于医学宰割的公道性数据集,但是医学宰割与分类一样都是非常重要的医学 AI 任务,在某些场景宰割甚至优于分类,因为它能够提供待临床医生评价的器官异常的详细空间信息。

在最新的钻研中,哈佛大学(Harvard University)的Harvard-Ophthalmology-AI-Lab 团队提出了第一个用于医学宰割的公道性数据集,名为 Harvard-FairSeg,蕴涵 10,000 个患者样本。此外,还提出了一种公道的误差界限缩放方法,通过使用最新的 Segment Anything Model(SAM),以每个身份组的上界误差为基础重新加权受益函数。

为了促进公道比较,该团队利用了一种新颖的评价公道性在宰割任务的标准,叫做 equity-scaled segmentation performance。通过全面的实验,钻研人员证明了他们的方法要么具有优越性,要么与最先进的公道进修模型在公道性能上相当。

在这里,哈佛大学的钻研人员和大家分享一波 ICLR 2024 中稿的工作「Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling」。

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

文章地址: https://arxiv.org/pdf/2311.02189.pdf

代码地址: https://github.com/Harvard-Ophthalmology-AI-Lab/Harvard-FairSeg

数据集网站:https://ophai.hms.harvard.edu/datasets/harvard-fairseg10k/

数据集下载链接: https://drive.google.com/drive/u/1/folders/1tyhEhYHR88gFkVzLkJI4gE1BoOHoHdWZ

Harvard-Ophthalmology-AI-Lab 致力于提供高质量公道性数据集,更多数据集蕴涵三种眼科疾病的公道性分类任务。

Harvard-Ophthalmology-AI-Lab 的数据集网页:https://ophai.hms.harvard.edu/datasets/

背景

随着人工智能在医学影像诊断中的应用日益增多,确保这些深度进修模型的公道性并深入探究在复杂的现实世界情境中可能出现的隐藏偏见变得至关重要。遗憾的是,机器进修模型可能无意中蕴涵了与医学图象相关的敏感属性(如种族和性别),这可能影响模型区分异常的能力。这一挑战促使人们在机器进修和计算机视觉领域进行了大量的努力,以调查偏见、倡导公道性,并推出新的数据集。

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

截至目前,只有少数公共公道性数据集被提出用于钻研公道性分类,主要的是,这些数据集中的大多数都只是表格数据,因此不适合开发需要影像数据的公道计算机视觉模型。对计算机视觉公道性的缺失尤其令人关注,特别是考虑到依赖此类数据的深度进修模型的影响力日益增强。在医学影像领域,只有少数数据集被用于公道进修。

这些数据集大多没有专门为公道性建模而设计(目前仅有的医疗图象数据集我们列在了table 1)。它们通常只蕴涵有限范围的敏感属性,如年龄、性别和种族,因此限制了检查不同人群公道性的范围。此外,它们也缺乏全面的基准测试框架。更重要的是,尽管这些先前的数据集和方法为医学分类提供了解决方案,但它们忽视了医学宰割这一更为关键的领域。

然而,为公道进修创建这样一个新的大型数据集面临着多重挑战。首先,缺乏大规模、高质量的医学数据以及手工像素级注释,这些都需要大量劳动力和时间来收集和标注。其次,现有提升公道性的方法主要是为医学分类设计的,当适应宰割任务时,其性能仍然存疑。同样不确定的是,宰割任务中存在的不公道是否可以通过算法有效地缓解。最后,评价医学宰割模型公道性的评判标准 (evaluation metric)仍然难以捉摸。此外,将现有为分类设计的公道性指标适应到宰割任务上也可能存在挑战。

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

为了解决这些挑战,我们提出了第一个大规模医学宰割领域的公道性数据集,Harvard-FairSeg。该数据集旨在用于钻研公道性的cup-disc segmentation,从 SLO 眼底图象中诊断青光眼,如图 1 所示。

青光眼是全球不可逆盲目的主要原因之一,在 40-80 岁年龄段的患病率为 3.54%,大约影响了 8000 万人。早期青光眼通常无症状,这强调了及时进行专业检查的必要性。对 cup-disc 的准确宰割对于医疗专业人员早期诊断青光眼至关重要。

值得注意的是,与其他集体相比,黑人患青光眼的风险加倍,然而这一人群的宰割准确率通常最低。这激励我们整理一个数据集,以钻研宰割公道性问题我们提出的 Harvard-FairSeg 数据集的亮点如下:

(1)医学宰割领域第一个公道性进修数据集。该数据集提供了 SLO 眼底成像数据的 cup-disc 宰割;(2)该数据集配备了从现实医院临床情景中收集的六种敏感属性,用于钻研公道性进修问题;(3)我们在我们提出的新数据集上评价了多个 SOTA 公道性进修算法,并使用包括 Dice 和 IoU 在内的多种宰割性能指标进行了评价。

如何获得大量的高质量宰割标注

本钻研中测试的对象来自于一家大型学术眼科医院,时间跨度为 2010 年至 2021 年。本钻研将发布三种类型的数据:(1)SLO 眼底扫描图象;(2)患者人口统计信息 蕴涵了六种不同的属性;(3)由 OCT 机器自动标注以及由专业医疗从业者手工评级的像素级标注如何获得大量高质量宰割标注一直是医疗宰割的很重要分体。

我们新颖的通过把 cup 和 disc 区域的像素标注首先从 OCT 机器获得,其中  disc 边界在 3D OCT 中被宰割为 Bruch’s 膜开口,由 OCT 制造商软件实现, cup 边界被检测为内限膜(ILM)与导致最小表面积的平面之间的交叉点和 disc 边界在平面上的交叉点。大致上,cup 边界可以被认为是 ILM 上最靠近视盘边界的位置,即被定义为 Bruch’s 膜开口。

由于 Bruch’s 膜开口和内限膜与背景之间的高对比度,它们很容易被宰割。因此因为 OCT 制造商软件利用了 3D 信息,利用 oct 机器对 cup 和 disc 的宰割通常是可靠的。

相比之下,眼底照片上的 2Dcup 和 disc 宰割可能因包括衰减的成像信号和血管阻塞等各种因素而具有挑战性。然而,由于 OCT 机器相当昂贵且在初级保健中较少见,因此我们提议将这些注释从 3D OCT 迁移到 2D SLO 眼底图片,以在初级保健领域的早期青光眼筛查中产生更广泛的影响。

具体来说,我们首先使用 NiftyReg 工具将 SLO 眼底图象与 OCT 衍生的眼底图象(OCT 眼底)对齐随后,将 NiftyReg 的仿射度量应用于 OCT 眼底图象的 cup-disc 掩码,使其与 SLO 眼底图象对齐。这一过程有效地产生了大量高质量的SLO眼底掩码注释,避免了劳动密集型的手工像素标注过程。

值得注意的是,这种 medical registration 的操作在现实世界场景中展示了相当高的精确度,我们的经验观察表明,medical registration 成功率大约为 80%。在这一自动化过程之后,生成的掩码经过严格审查,并由五名医学专业人员小组手动评级,以确保 cup-disc 区域的精确标注,并排除位置错误的 cup 或 disc 掩码和 registration 失败的情况。

数据特征:我们的 Harvard-FairSeg 数据集蕴涵来自 10,000 名受试者的 10,000 个样本。我们将数据分为蕴涵 8,000 个样本的训练集和蕴涵 2,000 个样本的测试集。数据集的平均年龄为 60.3±16.5 岁。在该数据集中,蕴涵了六个敏感属性,用于深入的公道性进修钻研,这些属性包括年龄、性别、种族、民族、首选语言和婚姻状况。

在种族人口统计学上,数据集包括来自三个主要集体的样本:亚洲人,有919个样本;黑人,有 1,473 个样本;白人,有 7,608 个样本。在性别方面,女性占受试者的 58.5%,其余为男性。民族分布以90.6% 的非西班牙裔,3.7% 的西班牙裔和 5.7% 的未说明。在首选语言方面,92.4% 的受试者首选英语,1.5% 首选西班牙语,1%首选其他语言,5.1% 未确定。从婚姻状况的角度来看,57.7%的人已婚或有伴侣,27.1% 是单身,6.8% 经历过离婚,0.8%法律上分居,5.2%是丧偶,2.4% 未说明。

我们的提升公道性的方法 Fair Error-Bound Scaling

我们假设获得较小整体 Dice 受益的样本组意味着模型对该特定组的样本进修得更好,因此,这些样本组需要较小的权重。相反,整体 Dice 受益较大的样本组(即难处理的案例)可能导致更差的泛化能力并引起更多的算法偏差,这需要为这些样本组分配较大的进修权重。

因此,我们提出了一种新的公道误差界限缩放方法,用于在训练过程中缩放不同人群组之间的 Dice 受益。我们首先定义预测像素得分和真实目标之间的标准 Dice 受益表示为:

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

为了确保在不同属性组之间的公道性,我们使用一种新颖的公道误差界限缩放机制来增强上述Dice受益。受益函数:

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

通过用这些属性权重调节预测像素得分,这种受益确保不同属性组在模型训练过程中平衡地贡献于受益函数,从而促进公道性。

用于评价公道宰割准确性的 metric:传统的宰割度量如 Dice 和 IoU 提供了对宰割性能的洞察,但可能无法有效捕捉不同集体间的公道性。考虑到这一点,我们的目标是提出一种新的 metric,既包括宰割的准确性,也包括在不同集体间的公道性。这就产生了一个全面的视角,确保模型既准确又公道。

为了纳入集体公道性,我们需要单独评价集体的准确性。我们首先定义一个宰割度量准确率差异 ∆,如下所示:

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

这里,∆ 度量了每个集体的准确性与总体准确性的总体偏差。当所有集体达到类似的宰割准确性时,它接近零。

当我们考虑不同集体间的公道性时,我们需要计算总体宰割准确性与每个人口统计集体内的准确性之间的相对差异。基于这个,我们定义了Equity-Scaled Segmentation Performance(ESSP)度量,如下所定义:

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

这种公式确保 ESSP 始终小于或等于 I。随着 ∆ 减小(表示集体间的宰割性能平等),ESSP 趋于传统宰割 metric。相反,较高的 ∆ 表示集体间宰割性能的更大差异,导致较低的 ESSP 得分。

这种方法允许我们评价宰割模型不仅在准确性(通过 Dice、IoU 等 metric)上,而且在不同集体间的公道性上。这使得 ESSP 评分函数成为确保医学成像任务中宰割准确性和公道性的关键指标。这种 metric 可以和传统的 dice IoU 拼到一起 成为 ES-Dice 和 ES-IoU。

实验

我们选择了两个宰割网络作为 backbone。其中,我们选择了最近推出的宰割大模型 Segment Anything Model (SAM) 来实验 SOTA 的宰割准确性,另一个 backbone 我们选择了 TransUNet。

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

我们也利用了其他宰割的 metric 例如 HD95 ASD 和 NSD 进行测试,下面是在种族上的结果:

ICLR2024 | Harvard FairSeg: 第一个钻研宰割算法公道性的大型医疗宰割数据集

给TA打赏
共{{data.count}}人
人已打赏
应用

和特斯拉竞速、能站立、会开门...... 明星四足轮腿机器人要商业化了

2024-1-23 16:47:00

应用

有了这块活地板,成为VR届的「街溜子」

2024-1-24 10:56:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索