编辑 | 白菜叶
由于药物疗效的不确定性和患者的异质性,癌症药物反应的预测是现代个性化癌症治疗中的一个具有挑战性的课题。而且,药物本身的特性和患者的基因组特征可以极大地影响癌症药物反应的结果。
因此,准确、高效、全面的药物特征提取和基因组学整合方法对于提高预测精度至关重要。
之江实验室的研究团队提出了一种名为 DeepAEG 的端到端深度学习模型,它基于完整图更新模式来预测 IC50 值。
并且,研究人员提出了一种新方法,通过采用序列重组来增强简化的分子输入行输入规范数据,从而消除药物分子单一序列表示的缺陷。
DeepAEG 在多个测试集的多个评估参数上优于其他现有方法。此外,利用 DeepAEG,研究人员还确定了几种潜在的抗癌药物,包括硼替佐米(它已被证明是一种有效的临床治疗选择)。研究人员认为 DeepAEG 在指导特定癌症治疗方案设计方面具有潜在价值。
该研究以「DeepAEG: a model for predicting cancer drug response based on data enhancement and edge-collaborative update strategies」为题,于 2024 年 3 月 9 日发布在《BMC Bioinformatics》。
癌症仍然是全球主要死亡原因之一,近年来其发病率呈上升趋势。开发具有选择性抗肿瘤作用的新治疗药物具有重要的科学意义和临床价值。
由于癌症的异质性很强,相似的抗癌药物在同一类型的癌症患者中可能会引起不同的反应。这说明癌症个体化治疗意义非凡,即根据患者的基因型信息和生理特征,为患者推荐精准的药物治疗方案,从而提高治疗效果,减少药物副作用。
特别是癌细胞系(CCL)基因组学在个性化癌症药物设计研究中发挥着重要作用。同时,高通量测序技术的发展促进了癌细胞系数据库的发展和积累。
半数最大抑制浓度(IC50)是一个广泛使用的细胞系分析指标。分析癌症相关基因的内在特征及其与抗癌药物的相互作用,可以揭示抗癌分子的潜在特征,从而简化抗癌药物的早期筛选,提高特异性抗癌药物的发现效率。但是现有方法的有效性可能受到其有限的泛化和计算效率的限制。
目前,用于癌症药物预测的机器学习方法包括但不限于逻辑回归、支持向量机、多层神经网络和随机森林。此外,基于深度学习的方法采用复杂的深度神经网络架构,从多源数据中提取复杂的信息。
然而,由于数据表示受到某些限制,在不完整的特征学习过程中,一些潜在的信息可能不可避免地丢失。以往研究的局限性如下:
现有的工作忽略了药物分子中的化学键信息,这对于区分两个化学原子之间的相互作用至关重要。该信息还有可能直接影响药物与癌细胞系相互作用的结果。
以前的工作要么应用基于字符串的方法(例如 SMILES),要么应用基于图形的方法来表示药物分子。然而,这两种方法都可以为药物发现提供补充信息。充分利用这两种信息可以帮助更好地了解药物的潜在表征。
以前的大多数工作仅使用单个基因组图谱来代表癌细胞系,而忽略了多组学数据或 CCL 中包含的丰富信息。基因组多组学特征的范围仍然可以大大扩展。一些已被证明对癌症具有高度信息性的基因组特征尚未被整合和利用。
为了克服上述限制,之江实验室的研究团队提出了一种新颖的多源异构图卷积神经网络,称为 DeepAEG。它是一个端到端的深度学习框架,包括用于 IC50 预测的边缘更新策略和数据增强策略。
图示:DeepAEG 的框架。(来源:论文)
DeepAEG 使用 Transformer 和包含边缘信息的图卷积神经网络来提取药物特征,并结合四个子网络(拷贝数、DNA 甲基化、基因突变、基因表达)来提取癌症组学水平的高级信息,以预测抗癌药物的疗效。
DeepAEG 可以整合多种组学功能。该模型使用一对药物-癌细胞系基因图谱以及相应的真实 IC50 数据和 IC50 量化预测值作为输出。
一方面通过图表示将药物转化为更高层次的潜在表达,另一方面通过Transformer可以得到基于子结构序列提取的向量表示。两种组合形成的药物特征与从四个全连接网络中提取的转录组信息进行拼接,然后输入到由1D CNN组成的线性网络层。研究人员使用 AdamW 优化器,学习率为 1e^-3 ,批量大小为 256,均方误差作为损失函数。模型的具体构建在 keras 中实现。
综合实验表明,边缘信息特征、SMILES 序列重组和扩展多组学图谱的融合优化了药物细胞系反应实例的特征提取能力。DeepAEG 显示了最好的 PCC、SCC 和 RMSE。并且缺失数据预测的结果也确定了潜在有效的药物(硼替佐米,AICA)和最相关的基因。结果展示了 DeepAEG 的预测能力及其在指导癌症特异性治疗方面的潜在价值。
研究人员表示未来的研究方向有以下几个:
(1)由于坐标可以量化两个原子之间的键长,并且键长、键强度和电子密度分布之间存在特定的幂律关系,因此三维分子坐标表达可以丰富药物分子信息并潜在地提高模型预测性能。
(2)通过癌细胞知识图谱,可以实现不同领域知识的整合与融合,满足癌症精准医学背景下多学科知识的整合与应用要求。
DeepAEG 将为不断发展的精准医疗领域做出贡献,促进癌症机制研究和特异性药物开发。
免费获取 DeepAEG:https://github.com/zhejianzhuque/DeepAEG
论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-024-05723-8