编辑 | ScienceAI现代医疗保健系统会产生大量高维临床数据 (HDCD)，例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和 MRI 成像，这些数据无法用单个二进制或连续数字来概括。了解我们的基因组与 HDCD 之间的联系不仅可以提高我们对疾病的了解，而且对于疾病治疗的发展也至关重要。近日，Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。研究团队提出了一种无监督深度学习模型，即低维嵌入基因发现的表示学习 (REGLE)，用

效率高，无需标签，谷歌团队用AI挖掘临床数据，改善基因发现和疾病预测，登Nature子刊

编辑 | ScienceAI

现代医疗保健系统会产生大量高维临床数据 (HDCD)，例如肺功能图、光体积变化描记图法 (PPG)、心电图 (ECG) 记录、CT 扫描和 MRI 成像，这些数据无法用单个二进制或连续数字来概括。

了解我们的基因组与 HDCD 之间的联系不仅可以提高我们对疾病的了解，而且对于疾病治疗的发展也至关重要。

近日，Google Research 的基因组学团队在利用 HDCD 表征疾病和生物学特征方面取得了进展。

研究团队提出了一种无监督深度学习模型，即低维嵌入基因发现的表示学习 (REGLE)，用于发现基因变异与 HDCD 之间的关联。

REGLE 作为一种新颖的基因发现方法，可以利用高维临床数据中的隐藏信息，其计算效率高，不需要疾病标签，并且可以整合来自专家定义知识的信息。

总体而言，REGLE 包含的临床相关信息超出了现有专家定义的特征所捕获的信息，从而可以改善基因发现和疾病预测。

相关研究以「Unsupervised representation learning on high-dimensional clinical data improves genomic discovery and prediction」为题，于 7 月 8 日发布在《Nature Genetics》上。

效率高，无需标签，谷歌团队用AI挖掘临床数据，改善基因发现和疾病预测，登Nature子刊

论文连接：https://www.nature.com/articles/s41588-024-01831-6

揭示 HDCD 中的隐藏信息

研究基因与 HDCD 之间联系的一种简单方法是对每个数据坐标执行 GWAS，例如，可以研究医学图像中每个像素值的变化。这种方法计算成本高，并且由于邻近坐标之间的高相关性和大量的多重测试负担，发现显著关联的能力较低。

一种更常用的方法是专注于从 HDCD 中提取的少量专家定义特征 (Expert-defined Features，EDF) 作为 GWAS 的目标特征或表型。EDF 可以包括临床已知的特征，例如肺量图的用力肺活量 (FVC) 或 1 秒用力呼气量 (FEV1)。

虽然这些 EDF 是专家发现的重要特征，但假设它们可能无法全面捕获 HDCD 中编码的信号，因此对这些信号运行 GWAS 可能无法充分利用 HDCD 的潜力。

REGLE 旨在使用变分自动编码器 (VAE) 模型克服这些限制。该方法包括三个主要步骤：

(1) 通过 VAE 学习 HDCD 的非线性、低维、解纠缠表示（即编码或嵌入）；

(2) 对每个编码坐标独立进行 GWAS；

(3) 使用来自编码坐标的多基因风险评分 (PRS) 作为一般生物功能的遗传评分，然后可能将这些评分组合起来为特定疾病或特征创建 PRS（给定少量疾病标签）。

值得注意的是，REGLE 还允许在修改后的 VAE 架构中将相关 EDF 选择性地包含在解码器的输入中，从而鼓励编码器仅学习 EDF 未表示的残差信号。

效率高，无需标签，谷歌团队用AI挖掘临床数据，改善基因发现和疾病预测，登Nature子刊

图示：REGLE 的三个步骤。（来源：论文）

检测肺和循环功能的新基因位点

研究人员使用两种高维临床数据模式展示了 REGLE 的功能：测量肺功能的肺量图和测量心血管功能的 PPG。两者都可以在诊所或消费者可穿戴设备中以非侵入性、相对便宜的方式收集，并且这两种模式都有众所周知的特征）。

与具有相同维度的肺量图和 PPG 特征的全基因组关联研究相比，REGLE 对学习编码的研究恢复了与肺和循环功能相关的大多数已知基因位点（loci），同时还检测到了其他位点（例如，PPG 的重要位点增加了 45%）。如果这些位点在进一步的分析和湿实验室实验中得到验证，它们有可能成为新的药物靶点。

改进的遗传风险评分

多基因风险评分 (PRS) 是许多遗传变异对特定特征的估计影响的总结，以单个数字表示。通过对 REGLE 嵌入进行全基因组关联研究创建的 PRS 可以仅使用少量疾病标签进行组合，以生成针对该特定疾病的 PRS。

研究人员观察到，与现有方法（例如由专家定义的特征、PCA 和 PRS）相比，由肺量图编码创建的肺功能 PRS 改善了 COPD 和哮喘预测，并且比风险谱两端的特征 PRS 更有效地对风险组进行分层。哮喘和 COPD 的多个独立数据集（COPDGene、eMERGE III、Indiana Biobank 和 EPIC-Norfolk）中的多个指标（AUC-ROC、AUC-PR 和 Pearson 相关性）在统计学上显著改善，如下所示。

效率高，无需标签，谷歌团队用AI挖掘临床数据，改善基因发现和疾病预测，登Nature子刊