编辑 | 萝卜皮
拷贝数变异(CNV)与多种遗传性疾病的病因有很大关联。利用全外显子组测序(WES)数据准确检测 CNV 一直是临床上长期追求的目标。尽管最近性能有所提高,但这是不可能的,因为算法大多精度低,专家策划的黄金标准调用集的召回率甚至更低。
牛津大学(Oxford University)、瑞士洛桑联邦理工学院(EPFL)以及土耳其毕尔肯大学(Bilkent University)提出了一个基于深度学习的 WES 数据体细胞和种系 CNV 调用程序,名为 ECOLE。
基于 Transformer 架构的变体,该模型通过对匹配的 WGS 样本进行高置信度调用,学习调用每个外显子的 CNV。
研究人员用迁移学习通过一小组专家调用,进一步训练和微调模型。ECOLE 首次在人类专家标记数据上实现了高性能,准确率达到 68.7%,召回率达到 49.6%。
与排名第二的最佳方法相比,准确率和召回率分别提高了 18.7% 和 30.8%。使用肿瘤样本的相同微调策略使 ECOLE 能够检测膀胱癌样本中经过 RT-qPCR 验证的变异,而无需对照样本。
该研究以「ECOLE: Learning to call copy number variants on whole exome sequencing data」为题,于 2024 年 1 月 2 日发布在《Nature Communications》。
拷贝数变异 (CNV) 是癌症、精神分裂症和自闭症等许多疾病的众所周知的重要危险因素。在过去十年中,高通量测序 (HTS) 一直是检测 CNV 的标准技术。使用全基因组测序 (WGS) 数据的各种 CNV 检测算法非常成功,灵敏度和精确度值分别高达 96% 和 97%。
这与处理整个外显子组测序 (WES) 数据的算法形成鲜明对比,后者的精度非常低。WGS 是一个更适合这项任务的平台,因为它不使用引入长度、GC 和参考偏差的靶向探针。另一方面,WES 在临床上更具吸引力,因为它比 WGS 更紧凑、可解释且价格实惠。不幸的是,由于这些限制,WES 技术在 CNV 检测方面的临床应用受到限制。
牛津大学、瑞士洛桑联邦理工学院以及土耳其毕尔肯大学的研究人员,前期开发了一种基于深度学习的抛光方法(deep-learning-based polishing approach),该方法可以使用对匹配的 WGS 样本进行的更值得信赖的调用,来纠正许多最先进的基于 WES 的种系 CNV 调用者的调用。虽然这是向前迈出的重要一步,但在临床使用方面仍然存在瓶颈。
第一个问题是结果的敏感性。抛光器(polisher)只能处理基本算法返回的调用(例如删除)。它要么改变这些调用(例如,重复),要么中和它们(例如,不调用)。虽然这有助于降低错误发现率,但它对灵敏度的影响有限,因为抛光器无法进行新的调用(例如,将无调用转换为删除/重复)。不幸的是,由于性能非常低,灵敏度大多超出了基于 WES 的 CNV 调用域的范围。
第二个问题是,即使是经过优化后的精度性能也受到专家策划的 CNV 调用集的限制,这些调用集被视为黄金地面事实(高达 35%)。这是因为抛光器使用基于 WGS 的自动化 CNV 调用作为模型训练的标签,但这些标签(调用)与人类专家决策相比具有非常不同的分布。
不幸的是,这种手动策划的调用集尺寸非常小,这阻碍了机器学习模型的训练。因此,在人类专家策划的 CNV 调用集上实现高性能的调用者将使基于 WES 的种系 CNV 检测在临床中得到广泛使用。
图示:ECOLE 的系统概述。(来源:论文)
因此,该团队又提出了第一个基于深度学习的方法(ECOLE: Exome-based COpy number variation calling LEarner),该方法可以独立学习对 WES 数据执行体细胞和种系 CNV 调用。该模型基于 Transformer 模型的变体,这是自然语言处理领域处理序列数据的最先进方法。
ECOLE 可以处理每个外显子的读取深度信号。它了解需要关注信号的哪些部分以及在哪个上下文(即染色体)中调用 CNV。它使用在匹配的 WGS 样本上获得的高置信度调用(即标签)作为半真实值。
ECOLE 在自动 WGS 调用的基准上显着提高了外显子精确度以及第二最佳方法性能的召回率(分别提高了 13.5% 和 16.6%)。这是唯一具有平衡精度和召回率的方法。
此外,该团队还首次提出使用转移学习并使用少量人类专家标记的样本来微调模型参数。研究人员表明,这种方法在预测人类标签方面的精度和召回率分别提高了约 18% 和约 30%。
同样,他们使用微调方法使 ECOLE 能够使用膀胱癌样本来调用体细胞变异。研究人员证明,他们能够在 16 个膀胱癌样本中的 13 个样本中检测到经过 PCR 验证的拷贝数畸变,而最先进的方法即使在抛光后也只能检测到 2 个样本中经过验证的拷贝数畸变。
该方法具有作为种系和体细胞 CNV 调用者的能力,并通过微调轻松适应疾病和人类专家;研究人员建议 ECOLE 作为扩大外显子组测序技术在 CNV 检测临床应用的可行选择。
ECOLE:https://github.com/ciceklab/ECOLE
论文链接:https://www.nature.com/articles/s41467-023-44116-y