近年来,鉴于大数据预训练的多模态根基模型 (Foundation Model) 在自然语言理解和视觉感知方面展现出了前所未有的进展,在各领域中受到了广泛关注。在调理领域中,由于其任务对领域专业学问的高度依赖和其本身细粒度的特征,通用根基模型在调理领域的应用十分有限。因此,如何将调理学问注入模型,提高根基模型在具体诊疗任务上的准确度与可靠性,是当前医学人工智能钻研领域的热点。
在此背景之下,上海交通大学与上海人工智能实验室联合团队探索了鉴于医学学问巩固的根基模型预训练方法,发布了首个胸部 X-ray 的根基模型,即 KAD(Knowledge-enhanced Auto Diagnosis Model)。该模型通过在大规模医学影像与放射报告数据进行预训练,通过文本编码器对高质量调理学问图谱进行隐空间嵌入,利用视觉 – 语言模型联合训练实现了学问巩固的表征进修。在不需要任何额外标注情况下,KAD 模型即可直接应用于任意胸片相关疾病的诊疗,为开发人工智能辅助诊疗的根基模型提供了一条切实可行的技术路线。
KAD 具有零样本(zero-shot)诊疗威力,无需下游任务微调,展现出与专业大夫相当的精度;
KAD 具有开放疾病诊疗(open-set diagosis)威力,可应用于胸片相关的任意疾病诊疗;
KAD 具有疾病定位威力,为模型预测提供可解释性。
钻研论文《Knowledge-enhanced Visual-Language Pre-training on Chest Radiology Images》已被知名国际期刊《自然 – 通讯》(Nature Communications)接收。论文作者为张小嫚、吴超逸、张娅教授,谢伟迪教授(通讯),王延峰教授(通讯)。
论文链接:https://arxiv.org/pdf/2302.14042.pdf
代码模型链接:https://github.com/xiaoman-zhang/KAD
模型介绍
KAD 模型的核心是利用医学先验学问引导根基模型预训练,第一阶段,该钻研利用医学学问图谱训练一个文本学问编码器,对医学学问库在隐空间进行建模;第二阶段,该钻研提出放射报告中提取医学实体和实体间关系,借助已训练的学问编码器来指导图象与文本对的视觉表征进修,最终实现了学问巩固的模型预训练。具体流程如图 1 所示。
图 1:KAD 的模型架构
学问编码器
学问编码器的核心是在特征空间隐式地建立医学实体之间的关系。具体来说,该钻研将统一医学语言系统 (Unified Medical Language System,UMLS) 作为医学学问库,如图 1a 所示;通过对比进修训练文本编码器,将医学学问注入模型,如图 1b 所示。
学问引导的视觉表征进修
学问编码器训练完成后,模型在文本特征空间已经建立了医学实体之间的关系,即可用于引导视觉表征进修。具体来说,如图 1c 所示,鉴于胸片 – 报告对的数据,首先进行实体提取,得到常见疾病的集合及其标签,该钻研尝试了三种方法:鉴于 UMLS 启发式规则的实体提取、鉴于报告结构化工具 RadGraph 的实体提取以及鉴于 ChatGPT 的实体提取;在模型层面,该钻研提出了鉴于 Transformer 架构的疾病盘问网络(Disease Query Networks),以疾病名称作为盘问 (query) 输入,关注 (attend) 视觉特征以获得模型预测结果;在模型训练过程中,该钻研联合优化图象 – 文本对比进修和疾病盘问网络预测的多标签分类损失。
经过上述两阶段的训练,在模型使用阶段,如图 1d 所示,给定一张图象以及盘问的疾病名称,分别输入图象编码器和学问编码器,经过疾病盘问网络,即可得到盘问疾病的预测。同时可以通过疾病盘问网络得到注意力图对病灶进行定位,巩固模型的可解释性。
实验结果
钻研团队将仅在 MIMIC-CXR [1] 上使用图象和报告预训练的 KAD 模型,在多个具有不同数据分布的公开数据集上进行了系统性评测,包括 CheXpert [2], PadChest [3], NIH ChestX-ray [4] 和 CheXDet10 [5]。MIMIC-CXR 数据收集于贝斯以色列女执事调理中心(Beth Israel Deaconess Medical Center,BIDMC)是,CheXpert 数据收集于美国斯坦福医院(Stanford Hospital),PadChest 数据收集于西班牙圣胡医院(San Juan Hospital),NIH ChestX-ray 和 CheXDet10 数据来自于美国国立卫生钻研院(National Institutes of Health)临床 PACS 数据库。
(1) KAD 零样本诊疗威力与专业放射科大夫精度相当
如图 2 所示,该钻研将预训练的 KAD 模型在 CheXpert 数据上进行评测,在其中的五类疾病诊疗任务与放射科大夫进行了比较,图中 Radiologists 表示三名放射科大夫的平均结果。KAD 在五类疾病诊疗任务上的平均 MCC 超过了 Radiologists,且在其中三类疾病的诊疗结果显著优于放射科大夫,肺不张 atelectasis (KAD 0.613 (95% CI 0.567, 0.659) vs. Radiologists 0.548);肺水肿 edema (KAD 0.666 (95% CI 0.608, 0.724) vs. Radiologists 0.507);胸腔积液 pleural effusion (KAD 0.702 (95% CI 0.653, 0.751) vs. Radiologists 0.548)。该结果证实了鉴于学问巩固的模型预训练的有效性。
图 2:KAD 在 CheXpert 数据集上与基线模型以及放射科大夫的比较
(2) KAD 零样本诊疗威力与全监督模型相当,支持开放集疾病诊疗
如图 3a 所示,在 PadChest 上的零样本诊疗性能大幅度超越此前所有多模态预训练模型(例如 Microsoft 发布的 BioVIL [6],Stanford 发布的 CheXzero [7]),与全监督模型 (CheXNet [8]) 相当。此外,全监督的模型的应用范围受限于封闭的训练类别集合,而 KAD 可以支持任意的疾病输入,在 PadChest 的 177 个未见类别的测试中,有 31 类 AUC 达到 0.900 以上,111 类 AUC 达到 0.700 以上,如图 3b 所示。
图 3:KAD 在 PadChest 数据集上与基线模型的比较
(3) KAD 具有疾病定位威力,为模型预测提供可解释性
除了自动诊疗威力,可解释性在人工智能辅助调理的作用同样关键,能够有效帮助临床大夫理解人工智能算法的判断依据。在 ChestXDet10 数据集上对 KAD 的定位威力进行了定量分析与定性分析。如图 4 所示,KAD 的定位威力显著优于基线模型。图 5 中,红色方框为放射科大夫提供的标注,高亮区域为模型的热力图,从中可以看出模型所关注的区域往往能与大夫标注区域对应上,随着输入图象的分辨率增加,模型的定位威力也显著巩固。
需要强调 这是模型设计的优势,是在无需人工病灶区域标注情况下获得的副产品。
图 4: KAD 在 ChestXDet10 数据集上与基线模型的比较
图 5:KAD 的定位结果可视化
总结
调理领域的专业性,导致通用根基模型在真实临床诊疗场景下的应用十分受限。KAD 模型的提出为鉴于学问巩固的根基模型预训练提供了切实可行的解决方案。KAD 的训练框架只需要影像 – 报告数据,不依赖于人工注释,在下游胸部 X-ray 诊疗任务上,无需任何监督微调,即达到与专业放射科大夫相当的精度;支持开放集疾病诊疗任务,同时以注意力图形式提供对病灶的位置定位,巩固模型的可解释性。值得注意的是,该钻研提出的鉴于学问巩固的表征进修方法不局限于胸部 X-ray,期待其能够进一步迁移到调理中不同的器官、模态上,促进调理根基模型在临床的应用和落地。
如果您对医学根基模型钻研感兴趣,欢迎加入FM4Medicine (Foundation Model for Medicine)专栏机器之心读者交流群。
References
[1] Johnson, A.E., Pollard, T.J., Berkowitz, S.J., Greenbaum, N.R., Lungren, M.P., Deng, C.-y., Mark, R.G., Horng, S.: Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports. Scientific data 6 (1), 1–8 (2019)
[2] Irvin, J., Rajpurkar, P., Ko, M., Yu, Y., Ciurea-Ilcus, S., Chute, C., Marklund, H., Haghgoo, B., Ball, R., Shpanskaya, K., et al.: Chexpert: A large chest radiograph dataset with uncertainty labels and expert comparison. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 33, pp. 590–597 (2019)
[3] Bustos, A., Pertusa, A., Salinas, J.-M., de la Iglesia-Vay´a, M.: Padchest: A large chest x-ray image dataset with multi-label annotated reports. Medical image analysis 66, 101797 (2020)
[4] Wang, X., Peng, Y., Lu, L., Lu, Z., Bagheri, M., Summers, R.M.: Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2097–2106 (2017)
[5] Liu, J., Lian, J., Yu, Y.: ChestX-Det10: Chest X-ray Dataset on Detection of Thoracic Abnormalities (2020)
[6] Boecking, B., Usuyama, N., Bannur, S., Castro, D.C., Schwaighofer, A., Hyland, S., Wetscherek, M., Naumann, T., Nori, A., Alvarez-Valle, J., et al.: Making the most of text semantics to improve biomedical visionlanguage processing. In: European Conference on Computer Vision, pp. 1–21 (2022).
[7] Tiu, E., Talius, E., Patel, P., Langlotz, C.P., Ng, A.Y., Rajpurkar, P.: Expertlevel detection of pathologies from unannotated chest x-ray images via selfsupervised learning. Nature Biomedical Engineering, 1–8 (2022).
[8] Rajpurkar, P., Irvin, J., Zhu, K., Yang, B., Mehta, H., Duan, T., Ding, D., Bagul, A., Langlotz, C., Shpanskaya, K. and Lungren, M.P., 2017. Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning. arXiv preprint arXiv:1711.05225.