编辑 | ScienceAI
现代医疗保健系统会产生大量高维临床数据 (HDCD),例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和 MRI 成像,这些数据无法用单个二进制或连续数字来概括。
了解我们的基因组与 HDCD 之间的联系不仅可以提高我们对疾病的了解,而且对于疾病治疗的发展也至关重要。
近日,Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。
研究团队提出了一种无监督深度学习模型,即低维嵌入基因发现的表示学习 (REGLE),用于发现基因变异与 HDCD 之间的关联。
REGLE 作为一种新颖的基因发现方法,可以利用高维临床数据中的隐藏信息,其计算效率高,不需要疾病标签,并且可以整合来自专家定义知识的信息。
总体而言,REGLE 包含的临床相关信息超出了现有专家定义的特征所捕获的信息,从而可以改善基因发现和疾病预测。
相关研究以「Unsupervised representation learning on high-dimensional clinical data improves genomic discovery and prediction」为题,于 7 月 8 日发布在《Nature Genetics》上。
论文连接:https://www.nature.com/articles/s41588-024-01831-6
揭示 HDCD 中的隐藏信息
研究基因与 HDCD 之间联系的一种简单方法是对每个数据坐标执行 GWAS,例如,可以研究医学图像中每个像素值的变化。这种方法计算成本高,并且由于邻近坐标之间的高相关性和大量的多重测试负担,发现显著关联的能力较低。
一种更常用的方法是专注于从 HDCD 中提取的少量专家定义特征 (Expert-defined Features,EDF) 作为 GWAS 的目标特征或表型。EDF 可以包括临床已知的特征,例如肺量图的用力肺活量 (FVC) 或 1 秒用力呼气量 (FEV1)。
虽然这些 EDF 是专家发现的重要特征,但假设它们可能无法全面捕获 HDCD 中编码的信号,因此对这些信号运行 GWAS 可能无法充分利用 HDCD 的潜力。
REGLE 旨在使用变分自动编码器 (VAE) 模型克服这些限制。该方法包括三个主要步骤:
(1) 通过 VAE 学习 HDCD 的非线性、低维、解纠缠表示(即编码或嵌入);
(2) 对每个编码坐标独立进行 GWAS;
(3) 使用来自编码坐标的多基因风险评分 (PRS) 作为一般生物功能的遗传评分,然后可能将这些评分组合起来为特定疾病或特征创建 PRS(给定少量疾病标签)。
值得注意的是,REGLE 还允许在修改后的 VAE 架构中将相关 EDF 选择性地包含在解码器的输入中,从而鼓励编码器仅学习 EDF 未表示的残差信号。
图示:REGLE 的三个步骤。(来源:论文)
检测肺和循环功能的新基因位点
研究人员使用两种高维临床数据模式展示了 REGLE 的功能:测量肺功能的肺量图和测量心血管功能的 PPG。两者都可以在诊所或消费者可穿戴设备中以非侵入性、相对便宜的方式收集,并且这两种模式都有众所周知的特征)。
与具有相同维度的肺量图和 PPG 特征的全基因组关联研究相比,REGLE 对学习编码的研究恢复了与肺和循环功能相关的大多数已知基因位点(loci),同时还检测到了其他位点(例如,PPG 的重要位点增加了 45%)。如果这些位点在进一步的分析和湿实验室实验中得到验证,它们有可能成为新的药物靶点。
改进的遗传风险评分
多基因风险评分 (PRS) 是许多遗传变异对特定特征的估计影响的总结,以单个数字表示。通过对 REGLE 嵌入进行全基因组关联研究创建的 PRS 可以仅使用少量疾病标签进行组合,以生成针对该特定疾病的 PRS。
研究人员观察到,与现有方法(例如由专家定义的特征、PCA 和 PRS)相比,由肺量图编码创建的肺功能 PRS 改善了 COPD 和哮喘预测,并且比风险谱两端的特征 PRS 更有效地对风险组进行分层。哮喘和 COPD 的多个独立数据集(COPDGene、eMERGE III、Indiana Biobank 和 EPIC-Norfolk)中的多个指标(AUC-ROC、AUC-PR 和 Pearson 相关性)在统计学上显著改善,如下所示。
图示:肺量图编码 (SPINC) 和残差肺量图编码 (RSPINC) PRS 与专家定义的特征 PRS 对哮喘患病率的比较。(来源:论文)
类似地,从 PPG 的 REGLE 嵌入中得到的 PRS 可以改善高血压和收缩压 (SBP) 预测。在三个独立数据集(COPDGene、eMERGE III 和 EPIC-Norfolk)以及英国生物库的保留测试集中评估了由 PPG 编码和 PPG 特征生成的高血压和 SBP PRS。
观察到,在多个数据集中,使用来自 PPG 编码的 PRS 比使用来自专家定义特征的 PRS 具有一致的改进趋势,无论是高血压还是 SBP。
图示:高血压 (HTN) 的 PPG 编码 (PLENC) PRS 比较。(来源:论文)
图示:收缩压 (SBP) 的 PPG 编码 (PLENC) PRS 比较。(来源:论文)
部分可解释的嵌入
利用 REGLE 的生成特性,通过固定专家定义特征的值并改变一个编码坐标而将其他编码坐标保持为零来研究编码坐标对肺量图形状的影响。然后,仅使用训练模型的解码器部分生成相应的肺量图。
典型的流量-体积肺量图由两个不同的部分组成:(1)相对较短的部分以达到峰值流量,其中流量随着体积的增加而单调增加;(2)肺量图的主要部分,其中流量单调减少。
下图显示,改变第一个坐标相当于扩大或缩小第二部分(负斜率),同时保持第一部分相对固定。事实上,曲线第二部分的凹度被肺病学家称为凹陷,这是气道阻塞的指标,标准 EDF 无法很好地表示出来。
图示:改变一个呼吸图编码坐标的效果。(来源:Google Research)
阐明人类特征和疾病的遗传基础
REGLE 是一种无监督学习方法,可执行遗传分析、改进的新基因位点发现和风险预测。由于难以大规模手动发现 EDF,因此无监督学习 HDCD 表示对基因组发现很有吸引力。
REGLE 框架还通过修改传统的 VAE 架构来支持在建模中原则性地使用这些特征。在两种临床数据模式(肺量图和 PPG)中展示了 REGLE,它们可以在临床环境中进行常规测量,也可以通过智能手机或可穿戴设备被动和非侵入性地测量。
REGLE 提供了一种在没有标记数据的情况下识别遗传对器官功能影响的机制,并允许将专家特征纳入模型。它还提供了一种使用很少的标签创建疾病和特征特异性 PRS 的方法。未来,这种类似的方法将越来越多地用于进一步阐明人类特征和疾病的遗传基础。
参考内容:https://research.google/blog/harnessing-hidden-genetic-information-in-clinical-data-with-regle/