作家 | 刘悦睿
编辑 | 红菜苔
药物研发过程中,了解份子与代谢途径之间的关系,对于合成新份子和优化药物代谢机制至关重要。
西南交通大学杨燕/江永全团队开发了一种新型的多标准图神经网络框架MSGNN,来将化合物与代谢途径联系起来。它包括特点编码器、子图编码器和全部特点处理器三部分,分手进修了原子特点、子结构特点和额外的全部份子特点,这三个标准的特点可赋予模型更全面的信息。
该框架在 KEGG 代谢途径数据集上的表现优于现有法子,Accuracy、Precision、Recall、F1分手达到98.17%、94.18%、94.43%、94.30%。
并且,团队还接纳了图巩固政策将训练集中的数据量扩充了十倍,使模型训练更加充分。
该研究以「A Novel Multi-Scale Graph Neural Network for Metabolic Pathway Prediction」为题发表在《IEEE/ACM Transactions on Computational Biology and Bioinformatics》,第一作家是硕士生刘悦睿。
论文链接:https://doi.org/10.1109/tcbb.2023.3345647
研究背景
代谢途径(Metabolic Pathway)又称为代谢网络,是在酶催化作用下代谢物之间发生化学作用和相互转化的复杂系统。在新药的研制过程中,了解份子与代谢途径之间的关系对于合成新份子和优化药物代谢机制至关重要。
在早期的研究中,研究者们一般基于传统的机器进修法子来对代谢途径进行分类和预测,包括支持向量机(SVM)、K近邻算法(KNN)、决策树等。而随着深度进修的快速发展,目前领域内的主流法子是构建图神经网络框架以完成分类任务,如图卷积网络(GCN)、图注意力网络(GAT)等。
虽然现有的法子在代谢途径类型预测方面取得了良好的效果,但大多数预测模型没有全面考虑化合物的特点。此外,代谢数据的数量相对有限,尚未发现有文章将图巩固政策引入该领域。
基于此,本文提出了多标准图神经网络框架 MSGNN,分手从原子特点、子图特点、全部份子特点出发,接纳科学合理的份子图巩固政策,进一步全面地探究代谢途径预测模型的构建。MSGNN 在 KEGG 代谢途径数据集上的表现优于现有法子,Accuracy、Precision、Recall、F1分手达到98.17%、94.18%、94.43%、94.30%。
总体框架
MSGNN的总体框架如图1所示,它包含子图编码器、特点编码器和全部特点处理器。子图编码器将子图向量作为图节点特点,通过两层GIN与全部求和池化生成子图嵌入。特点编码器利用原子特点作为图节点特点,通过两层GAT与全部平均池化生成特点嵌入。全部特点处理器负责提取来自预训练模型和两种份子指纹的信息。最终,先将子图嵌入与特点嵌入拼接在一起,再与全部特点嵌入相加,最后输入多层感知机层以生成预测结果。
图1:MSGNN整体框架图
由于常见的原子和化学键类型较少,无法充分展现化合物的性质,而且参数数量过少容易导致深度进修模型性能不佳。因此,子图编码器使用了r-半径子图作为特点。r实际上是指指定的中心原子到其邻居节点的跳数。这种法子不仅考虑了子图中原子和化学键的类型,还考虑了中心原子所处的环境。半径为2的份子子图示例如图2所示。在获得子图特点后,将份子图输入两层图同构网络(GIN)中,再对第二层GIN使用全部求和池化来进行读出操作,此时每个化合物可得到一个子图向量。
图2:半径为2的份子子图
图神经网络在深度模型中存在过度平滑问题,这是由于在消息传递过程中相邻节点的特点重复传递了,导致模型产生的节点表示都过于相似。为了缓解这个问题,除了进修份子子图特点,作家还使用了两层图注意力网络(GAT)来进修十种原子特点。为了稳定自注意进修过程,第一层GAT接纳了五头注意力机制。
除了原子和子图层面的特点,作家还添加了全部份子特点,其包含了预训练模型特点和份子指纹特点。为使模型更健壮,MSGNN接纳了预训练模型MolCLR,它利用了来自1000万个独特的无标签份子SMILES字符串,这些SMILES字符串是通过PubChem收集的,并利用RDKit进行一系列操作。份子指纹特点包含MACCS指纹和ECFP指纹,它们给予了模型份子的先验知识。
众所周知,数据对于深度进修而言至关重要,而现有的代谢数据有限,这也限制了模型的复杂程度。为了使模型训练更加充分,作家接纳了原子掩蔽与键删除相结合的政策来扩充训练集。作家选择了十倍数据巩固政策,即对于一个份子图来说,对它进行十次数据巩固操作,得到十个被随机掩蔽掉原子和删除掉键的巩固份子图。因此,训练集中不仅包括原始的份子图,还包括巩固份子图。这样的操作使数据量大大巩固。
对比实行分析
为展示MSGNN模型的优越性,作家在包含6669条数据的KEGG数据集中测试了MSGNN与各对比模型的表现。在经典的机器进修算法中,作家使用了K近邻算法(KNN)、随机森林(RF)、梯度提升决策树(GBDT)、轻量级梯度提升机器进修(lightGBM)和极端梯度提升算法(XGBoost)。这些机器进修法子的输入是167维的MACCS指纹,并且这些法子都使用了网格搜索来寻找最佳参数。此外,作家还将MSGNN与近年来优秀的深度进修模型进行比较。
为了使实行结果更具说服力,作家接纳了十折交叉验证,每折包含了200个epoch。值得注意的是,作家获得最终精度的方式为先对每一折中所有epoch的精度值取平均,再对十折中的精度均值取平均。这种方式的优点在于它考虑了模型的收敛速度,而在实际生产中,模型的收敛速度也是评价模型质量的重要指标。具体的实行结果如表1和图3所示。从表1可以看出,MSGNN在四项指标上均优于其它八种法子。从图3可以看出,MSGNN的指标值更加集中和稳定,这表明MSGNN具有出色的化合物特点提取能力,体现了其优越性。
表1:不同模型在KEGG数据集上的比较结果
图3:不同模型在四种指标上的表现图
为了进一步考察各模型的收敛速度,作家将MSGNN与三种深度进修模型进行比较,从图4中可以看出,MSGNN的收敛速度比其它三个基于图神经网络的模型更迅速。
图4:收敛速度的比较
消融实行分析
为进一步探索MSGNN的各个模块对整体的贡献,作家设计了四种MSGNN变体,分手是没有使用图巩固政策的变体(w/o Aug)、缺少子图编码器的变体(w/o SE)、缺少特点编码器的变体(w/o FE)、缺少全部特点处理器的变体(w/o GF)。实行结果如图5所示。
图5:消融实行
首先,MSGNN显著优于w/o Aug。由于使用了图巩固政策,MSGNN的Accuracy、Precision、Recall、F1分手提高了0.38%、0.98%、1.48%、1.27%,这表明通过扩充训练集可以更加充分地训练模型。
其次,子图编码器也对模型性能的提升做出了很大贡献。与MSGNN相比,w/o SE的四项指标分手下降了0.40%、1.43%、1.03%、1.23%。这表明,基于GIN的子图编码器有效地进修了化合物的内在属性,使MSGNN能够更精确地对代谢途径类型进行分类。
最后,特点编码器和全部特点处理器也在一定程度上提高了MSGNN的性能,它们使MSGNN能够从不同标准进修原子和份子特点,从而使模型更加鲁棒。
因此,图巩固政策、子图编码器、特点编码器、全部特点处理器都是模型不可缺少的部分。
结论
本文中,作家提出了一种新型的多标准图神经网络框架,它包括特点编码器、子图编码器和全部特点处理器。这三个编码器分手进修了原子特点、子结构特点和额外的全部份子特点,这三个标准的特点赋予了模型全面的信息,使模型能够将化合物与代谢途径联系起来。此外,作家还接纳了图巩固政策将训练集中的数据量扩充了十倍,使模型训练更加充分。