项目主页:https://sites.google.com/view/causal-hmm
论文链接:https://arxiv.org/abs/2103.16391
01 研究背景
在医学诊断中,对不可逆型疾病(如视盘萎缩症)举行空儿序列的疾病猜测非常重要,对未来疾病发展的猜测可以帮助患者举行提前干预,对于疾病的有效控制有很大的意义。
但是这类猜测目前存在两个大问题。首先,目前的很多空儿序列疾病猜测的步骤都是提取所有的时序图象特征来举行未来疾病的猜测。然而图象中通常存在很多与该类疾病有关的信息或特征,当加入这些疾病有关的信息举行训练时,会引入伪相关关系,即它们本身与疾病有关,但训练时使用它们参与了疾病的猜测,引入了统计上的相关关系。当模型使用这些伪相关的信息对新的漫衍下尝试集的样本举行疾病猜测时,很容易导致失败。其次,很多空儿序列的猜测步骤建立在时序标签完整的情况下。然而由于医学标签标注成本高昂,实际情况下很多时候过去空儿步的疾病标签是缺乏的,标签的缺乏也给未来阶段的疾病猜测带来了很大的挑战。
02 步骤介绍
图1. 因果隐马尔可夫模型
为了解决上述问题,本文对空儿序列疾病猜测建立了一个基于时序的因果隐马尔可夫模型(Causal-HMM),即针对现有的观测数据,包括每个空儿步的图象数据xt,临床测量数据At (如角膜厚度、角膜曲率等),个体属性数据Bt(如年龄、性别等)以及在未来阶段的疾病标签YT,建立一个描述其相关关系的因果图(如图1),用该因果图去刻画每个空儿步从隐空间到观测值的生成过程。其中隐空间中一部分是与疾病有关的因子zt,一部分是疾病相关的因子st和vt。vt 代表与疾病相关的临床测量数据的隐变量因子,st 代表其他与疾病相关的参与图象生成的因子。而个人属性Bt会对所有的隐变量带来影响。本文对图象在隐空间内举行解耦,旨在通过分离疾病有关因子来去除训练中所带来的伪相关关系。在理论上作家通过可识别性定理(如图2所示)对监督场景下的空儿序列数据给出了隐变量解耦的可识别性保证。
图2. 可识别性定理
为了学习本文所提出的因果隐马尔可夫模型,作家使用了基于 VAE 的变分框架去学习空儿序列下的图象及临床属性的生成过程以及举行疾病标签的猜测(如图3所示)。具体来说,在每个空儿步下先验网络接受个人属性特征及上一个空儿步的隐变量作为输入,得到当前空儿步的隐变量先验;而后验网络的编码器接受当前空儿步的图象及临床属性特征,及上一步的个人属性特征举行输入,相应地得到隐变量后验。同时每一步的解码器会对隐变量举行解码,完成对当前步的图象及临床属性的重构。隐变量的后验和先验通过 KL 距离举行约束。在最后一个空儿步下,通过所提取出的疾病相关的因子举行未来空儿步的疾病猜测。
图3. 左:Causal-HMM的空儿序列网络架构;右:每个空儿步的先验网络,后验网络及生成网络构成
03 实验结果
本文收集了507个个体样本,每个样本包括一到五年级的视网膜图象数据以及相应年级的属性数据,以及六年级的视盘萎缩疾病标签数据。作家对507个样本举行了数据集的划分,其中训练集验证集尝试集的数量分别为300,100,107。为了更好地验证本文步骤的泛化性能,作家将训练集验证集和尝试集按照性别划分为两个不同的漫衍,其中前两者数据集的性别漫衍为男女比2:3而后者尝试集性别漫衍为3:1。作家对包括一到五年级的十个所有可能的空儿序列设置下举行了实验,并与多个现有的疾病进展猜测和空儿序列猜测的步骤举行了比较。本文的步骤在几乎所有的实验设置及平均情况下的 ACC 和 AUC 指标均高于已有步骤(如表1所示),展示了该步骤在解决空儿序列疾病猜测问题上的优越性。
表1. 与比较步骤RGL, Devised RNN, LogSparse Transformer在一到五年级所有空儿序列上的ACC与AUC结果比较
同时作家对本文的步骤举行了消融实验(如表2所示),分别尝试了他们所使用的空儿序列结构(CNN vs Seq VAE, CNN+LSTM vs Seq VAE),属性信息(Seq VAE vs Seq VAE + Att)及隐空间解耦机制(Seq VAE + Att vs Ours)的有效性。
表2. 针对空儿序列网络结构, 属性信息以及解耦机制的消融实验在一到五年级所有空儿序列上的ACC与AUC结果比较
此外作家设计了一个第二阶段的疾病分类器证明解耦出来的隐变量的鲁棒性,将已经训练好的 Causal-HMM 模型的疾病相关因子和有关的因子分别取出,在训练集验证集及新漫衍下的尝试集上举行猜测。疾病有关的因子在新漫衍下的猜测准确率有很大下降,而解耦出的疾病相关因子在不同漫衍下的有着稳定和鲁棒的表现(如表3所示)。
表3. 在一到五年级所有空儿序列上使用不同隐变量(s+v vs z)对疾病举行猜测,在训练集,验证集及尝试集上的ACC与AUC结果比较
作家对 Causal-HMM 模型所学习到的隐空间因子s 和 z通过 Grad-CAM 举行了可视化(如图4所示),结果表明疾病相关的因子s在视盘周围显示了高响应,而疾病有关的因子z的高响应处更多地散布在视网膜图象的其他区域如黄斑区等。本文的步骤通过将z解耦出来可以去除其和疾病的伪相关关系,从而在不同漫衍下的疾病猜测上有更为鲁棒的表现。
图4. 不同隐变量(s vs z)的特征图可视化
04 结 语
本文针对空儿序列疾病猜测问题提出了一个因果隐马尔可夫模型举行未来阶段的疾病猜测。为了保证模型的泛化性能,作家对每个空儿步下的隐空间举行了显式的解耦和分离,并通过可识别性的结果对该解耦机制给出了理论保证。针对因果隐马尔可夫模型,作家提出了一个新的空儿序列变分框架举行该模型的学习和推断。实验上,作家将其步骤应用在了视盘萎缩疾病的时序猜测问题中,并和当前现有的最优步骤举行了比较,在新的尝试集漫衍下取得了更优越的性能,展示了该步骤的有效性和鲁棒性。
参考文献
[1] Judea Pearl. Causality. Cambridge university press, 2009.
[2] Maxime Louis, Raphael Couronne, Igor Koval, Benjamin Charlier, and Stanley Durrleman. Riemannian geometry learning for disease progression modelling. In IPMI 2019.
[3] Ilyes Khemakhem, Diederik P Kingma, and Aapo Hyvärinen. Variational autoencoders and nonlinear ICA: A unifying framework. In AISTATS 2020.
[4] Xinwei Sun, Botong Wu, Chang Liu, Xiangyu Zheng, Wei Chen, Tao Qin, and Tie-yan Liu. Latent causal invariant model. arXiv preprint arXiv:2011.02203, 2020.
图文 | 李静
Computer Vision and Digital Art (CVDA)