编辑 | 萝卜皮
拷贝数变异(CNV)与多种遗传性疾病的病因有很大关联。利用全外显子组测序(WES)数据准确检测 CNV 一直是临床上长期追求的目标。尽管最近性能有所提高,但这是不可能的,因为算法大多精度低,大师筹划的黄金标准挪用集的召回率甚至更低。
牛津大学(Oxford University)、瑞士洛桑联邦理工学院(EPFL)以及土耳其毕尔肯大学(Bilkent University)提出了一个鉴于深度进修的 WES 数据体细胞和种系 CNV 挪用程序,名为 ECOLE。
鉴于 Transformer 架构的变体,该模型通过对匹配的 WGS 样本进行高置信度挪用,进修挪用每个外显子的 CNV。
研讨职员用迁移进修通过一小组大师挪用,进一步训练和微调模型。ECOLE 首次在人类大师标记数据上实现了高性能,准确率达到 68.7%,召回率达到 49.6%。
与排名第二的最佳方式相比,准确率和召回率分别提高了 18.7% 和 30.8%。运用肿瘤样本的相同微调策略使 ECOLE 能够检测膀胱癌样本中经过 RT-qPCR 验证的变异,而无需对照样本。
该研讨以「ECOLE: Learning to call copy number variants on whole exome sequencing data」为题,于 2024 年 1 月 2 日发布在《Nature Communications》。
拷贝数变异 (CNV) 是癌症、精神分裂症和自闭症等许多疾病的众所周知的重要危险因素。在过去十年中,高通量测序 (HTS) 一直是检测 CNV 的标准技术。运用全基因组测序 (WGS) 数据的各种 CNV 检测算法非常成功,灵敏度和精确度值分别高达 96% 和 97%。
这与解决整个外显子组测序 (WES) 数据的算法形成鲜明对比,后者的精度非常低。WGS 是一个更适合这项任务的平台,因为它不运用引入长度、GC 和参考偏差的靶向探针。另一方面,WES 在临床上更具吸引力,因为它比 WGS 更紧凑、可解释且价格实惠。不幸的是,由于这些限制,WES 技术在 CNV 检测方面的临床应用受到限制。
牛津大学、瑞士洛桑联邦理工学院以及土耳其毕尔肯大学的研讨职员,前期开发了一种鉴于深度进修的抛光方式(deep-learning-based polishing approach),该方式可以运用对匹配的 WGS 样本进行的更值得信赖的挪用,来纠正许多最先进的鉴于 WES 的种系 CNV 挪用者的挪用。虽然这是向前迈出的重要一步,但在临床运用方面仍然存在瓶颈。
第一个问题是结果的敏感性。抛光器(polisher)只能解决基本算法返回的挪用(例如删除)。它要么改变这些挪用(例如,重复),要么中和它们(例如,不挪用)。虽然这有助于降低错误发现率,但它对灵敏度的影响有限,因为抛光器无法进行新的挪用(例如,将无挪用转换为删除/重复)。不幸的是,由于性能非常低,灵敏度大多超出了鉴于 WES 的 CNV 挪用域的范围。
第二个问题是,即使是经过优化后的精度性能也受到大师筹划的 CNV 挪用集的限制,这些挪用集被视为黄金地面事实(高达 35%)。这是因为抛光器运用鉴于 WGS 的自动化 CNV 挪用作为模型训练的标签,但这些标签(挪用)与人类大师决策相比具有非常不同的分布。
不幸的是,这种手动筹划的挪用集尺寸非常小,这阻碍了机器进修模型的训练。因此,在人类大师筹划的 CNV 挪用集上实现高性能的挪用者将使鉴于 WES 的种系 CNV 检测在临床中得到广泛运用。
图示:ECOLE 的系统概述。(来源:论文)
因此,该团队又提出了第一个鉴于深度进修的方式(ECOLE: Exome-based COpy number variation calling LEarner),该方式可以独立进修对 WES 数据执行体细胞和种系 CNV 挪用。该模型鉴于 Transformer 模型的变体,这是自然语言解决领域解决序列数据的最先进方式。
ECOLE 可以解决每个外显子的读取深度信号。它了解需要关注信号的哪些部分以及在哪个上下文(即染色体)中挪用 CNV。它运用在匹配的 WGS 样本上获得的高置信度挪用(即标签)作为半真实值。
ECOLE 在自动 WGS 挪用的基准上显着提高了外显子精确度以及第二最佳方式性能的召回率(分别提高了 13.5% 和 16.6%)。这是唯一具有平衡精度和召回率的方式。
此外,该团队还首次提出运用转移进修并运用少量人类大师标记的样本来微调模型参数。研讨职员表明,这种方式在预测人类标签方面的精度和召回率分别提高了约 18% 和约 30%。
同样,他们运用微调方式使 ECOLE 能够运用膀胱癌样本来挪用体细胞变异。研讨职员证明,他们能够在 16 个膀胱癌样本中的 13 个样本中检测到经过 PCR 验证的拷贝数畸变,而最先进的方式即使在抛光后也只能检测到 2 个样本中经过验证的拷贝数畸变。
该方式具有作为种系和体细胞 CNV 挪用者的能力,并通过微调轻松适应疾病和人类大师;研讨职员建议 ECOLE 作为扩大外显子组测序技术在 CNV 检测临床应用的可行选择。
ECOLE:https://github.com/ciceklab/ECOLE
论文链接:https://www.nature.com/articles/s41467-023-44116-y