效率高,无需标签,谷歌团队用AI挖掘临床数据,改善基因发现和疾病预测,登Nature子刊

编辑 | ScienceAI现代医疗保健系统会产生大量高维临床数据 (HDCD),例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和 MRI 成像,这些数据无法用单个二进制或连续数字来概括。了解我们的基因组与 HDCD 之间的联系不仅可以提高我们对疾病的了解,而且对于疾病治疗的发展也至关重要。近日,Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。研究团队提出了一种无监督深度学习模型,即低维嵌入基因发现的表示学习 (REGLE),用

图片

编辑 | ScienceAI

现代医疗保健系统会产生大量高维临床数据 (HDCD),例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和 MRI 成像,这些数据无法用单个二进制或连续数字来概括。

了解我们的基因组与 HDCD 之间的联系不仅可以提高我们对疾病的了解,而且对于疾病治疗的发展也至关重要。

近日,Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。

研究团队提出了一种无监督深度学习模型,即低维嵌入基因发现的表示学习 (REGLE),用于发现基因变异与 HDCD 之间的关联。

REGLE 作为一种新颖的基因发现方法,可以利用高维临床数据中的隐藏信息,其计算效率高,不需要疾病标签,并且可以整合来自专家定义知识的信息。

总体而言,REGLE 包含的临床相关信息超出了现有专家定义的特征所捕获的信息,从而可以改善基因发现和疾病预测。

相关研究以「Unsupervised representation learning on high-dimensional clinical data improves genomic discovery and prediction」为题,于 7 月 8 日发布在《Nature Genetics》上。

图片

论文连接:https://www.nature.com/articles/s41588-024-01831-6

揭示 HDCD 中的隐藏信息

研究基因与 HDCD 之间联系的一种简单方法是对每个数据坐标执行 GWAS,例如,可以研究医学图像中每个像素值的变化。这种方法计算成本高,并且由于邻近坐标之间的高相关性和大量的多重测试负担,发现显著关联的能力较低。

一种更常用的方法是专注于从 HDCD 中提取的少量专家定义特征 (Expert-defined Features,EDF) 作为 GWAS 的目标特征或表型。EDF 可以包括临床已知的特征,例如肺量图的用力肺活量 (FVC) 或 1 秒用力呼气量 (FEV1)。

虽然这些 EDF 是专家发现的重要特征,但假设它们可能无法全面捕获 HDCD 中编码的信号,因此对这些信号运行 GWAS 可能无法充分利用 HDCD 的潜力。

REGLE 旨在使用变分自动编码器 (VAE) 模型克服这些限制。该方法包括三个主要步骤:

(1) 通过 VAE 学习 HDCD 的非线性、低维、解纠缠表示(即编码或嵌入);

(2) 对每个编码坐标独立进行 GWAS;

(3) 使用来自编码坐标的多基因风险评分 (PRS) 作为一般生物功能的遗传评分,然后可能将这些评分组合起来为特定疾病或特征创建 PRS(给定少量疾病标签)。

值得注意的是,REGLE 还允许在修改后的 VAE 架构中将相关 EDF 选择性地包含在解码器的输入中,从而鼓励编码器仅学习 EDF 未表示的残差信号。

图片

图示:REGLE 的三个步骤。(来源:论文)

检测肺和循环功能的新基因位点

研究人员使用两种高维临床数据模式展示了 REGLE 的功能:测量肺功能的肺量图和测量心血管功能的 PPG。两者都可以在诊所或消费者可穿戴设备中以非侵入性、相对便宜的方式收集,并且这两种模式都有众所周知的特征)。

与具有相同维度的肺量图和 PPG 特征的全基因组关联研究相比,REGLE 对学习编码的研究恢复了与肺和循环功能相关的大多数已知基因位点(loci),同时还检测到了其他位点(例如,PPG 的重要位点增加了 45%)。如果这些位点在进一步的分析和湿实验室实验中得到验证,它们有可能成为新的药物靶点。

改进的遗传风险评分

多基因风险评分 (PRS) 是许多遗传变异对特定特征的估计影响的总结,以单个数字表示。通过对 REGLE 嵌入进行全基因组关联研究创建的 PRS 可以仅使用少量疾病标签进行组合,以生成针对该特定疾病的 PRS。

研究人员观察到,与现有方法(例如由专家定义的特征、PCA 和 PRS)相比,由肺量图编码创建的肺功能 PRS 改善了 COPD 和哮喘预测,并且比风险谱两端的特征 PRS 更有效地对风险组进行分层。哮喘和 COPD 的多个独立数据集(COPDGene、eMERGE III、Indiana Biobank 和 EPIC-Norfolk)中的多个指标(AUC-ROC、AUC-PR 和 Pearson 相关性)在统计学上显著改善,如下所示。

图片

图示:肺量图编码 (SPINC) 和残差肺量图编码 (RSPINC) PRS 与专家定义的特征 PRS 对哮喘患病率的比较。(来源:论文)

类似地,从 PPG 的 REGLE 嵌入中得到的 PRS 可以改善高血压和收缩压 (SBP) 预测。在三个独立数据集(COPDGene、eMERGE III 和 EPIC-Norfolk)以及英国生物库的保留测试集中评估了由 PPG 编码和 PPG 特征生成的高血压和 SBP PRS。

观察到,在多个数据集中,使用来自 PPG 编码的 PRS 比使用来自专家定义特征的 PRS 具有一致的改进趋势,无论是高血压还是 SBP。

图片

图示:高血压 (HTN) 的 PPG 编码 (PLENC) PRS 比较。(来源:论文)

图片

图示:收缩压 (SBP) 的 PPG 编码 (PLENC) PRS 比较。(来源:论文)

部分可解释的嵌入

利用 REGLE 的生成特性,通过固定专家定义特征的值并改变一个编码坐标而将其他编码坐标保持为零来研究编码坐标对肺量图形状的影响。然后,仅使用训练模型的解码器部分生成相应的肺量图。

典型的流量-体积肺量图由两个不同的部分组成:(1)相对较短的部分以达到峰值流量,其中流量随着体积的增加而单调增加;(2)肺量图的主要部分,其中流量单调减少。

下图显示,改变第一个坐标相当于扩大或缩小第二部分(负斜率),同时保持第一部分相对固定。事实上,曲线第二部分的凹度被肺病学家称为凹陷,这是气道阻塞的指标,标准 EDF 无法很好地表示出来。

图片

图示:改变一个呼吸图编码坐标的效果。(来源:Google Research)

阐明人类特征和疾病的遗传基础

REGLE 是一种无监督学习方法,可执行遗传分析、改进的新基因位点发现和风险预测。由于难以大规模手动发现 EDF,因此无监督学习 HDCD 表示对基因组发现很有吸引力。

REGLE 框架还通过修改传统的 VAE 架构来支持在建模中原则性地使用这些特征。在两种临床数据模式(肺量图和 PPG)中展示了 REGLE,它们可以在临床环境中进行常规测量,也可以通过智能手机或可穿戴设备被动和非侵入性地测量。

REGLE 提供了一种在没有标记数据的情况下识别遗传对器官功能影响的机制,并允许将专家特征纳入模型。它还提供了一种使用很少的标签创建疾病和特征特异性 PRS 的方法。未来,这种类似的方法将越来越多地用于进一步阐明人类特征和疾病的遗传基础。

参考内容:https://research.google/blog/harnessing-hidden-genetic-information-in-clinical-data-with-regle/

相关资讯

通过深度学习预测离散时间分岔

编辑 | 白菜叶许多自然和人造系统都容易发生关键转变——动态方面的突然且可能具有破坏性的变化。深度学习分类器可以通过从大型模拟训练数据集中学习分叉的通用特征,为关键转变提供预警信号。到目前为止,分类器仅被训练来预测连续时间分岔,忽略了离散时间分岔所特有的丰富动态。在这里,麦吉尔大学(McGill University)Thomas M. Bury 的研究团队训练一个深度学习分类器,为余维一的五个局部离散时间分岔提供预警信号。他们使用生理学、经济学和生态学中使用的离散时间模型的模拟数据以及经历倍周期分岔的自发跳动的鸡

可在数据限制下训练高维因果结构,德国DZNE团队提出一种深度神经架构

编辑 | 萝卜皮因果学习是科学人工智能的一个关键挑战,因为它使研究人员能够超越纯粹的相关或预测分析,学习潜在的因果关系,这对于科学理解以及广泛的下游任务非常重要。受新兴生物医学问题的启发,德国神经退行性疾病中心(German Center for Neurodegenerative Diseases,DZNE)的研究人员提出了一种深度神经架构,用于从高维数据和先验因果知识的组合中学习变量之间的因果关系。该团队将卷积神经网络和图神经网络结合在因果风险框架内,提供了一种在高维、噪声和数据限制条件下明显有效的方法,这些条

稳健且准确,AlphaFold 结合两种 AI 方法,实现蛋白质化学位移自动分配

编辑 | 绿萝化学位移分配对于基于核磁共振 (NMR) 的蛋白质结构、动力学和相互作用研究至关重要,可提供重要的原子级见解。然而,获得化学位移分配是劳动密集型的并且需要大量的测量时间。为了解决这一限制,苏黎世联邦理工学院(ETH Zurich)的研究人员之前提出了 ARTINA——一种用于自动分配二维 (2D)–4D NMR 谱的深度学习方法。近日,研究人员提出了一种将 ARTINA 与 AlphaFold 和 UCBShift 相结合的综合方法,能够减少实验数据、提高准确性并增强大型系统的稳健性,从而实现化学位移