编辑 | 萝卜皮
药物与靶标之间的连系亲和力的预计对于药物发现至关重要。然而,现有要领的准确性仍需提高。另一方面,大多数深度进修要领只关注非共价(非键合)连系份子系统的预计,而忽略了在药物开发领域越来越受到关注的共价连系的情况。
上海科技大学的钻研团队提出了一种新的基于注意力的模型,称为 TEFDTA (Transformer Encoder and Fingerprint combined Prediction method for Drug-Target Affinity),来预计键合和非键合药物-靶标相互作用的连系亲和力。
为了处理如此复杂的问题,钻研人员分别对蛋白质和药物份子利用了不同的表示。具体来说,通过利用非键合蛋白质-配体相互作用的数据集训练模型来构建初始框架。
对于广泛利用的数据集 Davis,该团队提供了一个手动校正的 Davis 数据库。为了优化性能,还在 CovalentInDB 数据库中的较小共价相互作用数据集上对该模型举行了微调。
结果表明,与单独利用 BindingDB 数据相比有了显著改进,预计非共价连系亲和力平均提高了 7.6%,预计共价连系亲和力平均提高了 62.9%。
该钻研以「TEFDTA: a transformer encoder and fingerprint representation combined prediction method for bonded and non-bonded drug–target affinities」为题,于 2023 年 12 月 23 日发布在《Bioinformatics》。
在药物研发领域,预计药物与靶点相互作用/亲和力(DTI/DTA)是不可或缺的组成部分。
在早期阶段,钻研人员通过实验确定这些相互作用,这既耗时又昂贵。随着计算机技术的进步,钻研人员开始利用计算机来预计药物与靶点的相互作用,并利用对接程序(例如 GLIDE、Molegro Virtual Docker)模拟药物与靶点的连系姿势。但这种对接要领也有相应的局限性,即对接过程也需要较长的计算时间,并且需要蛋白质的三维结构。
随着机器进修和深度进修的发展,钻研人员尝试将这些领域纳入DTI。目前,基于深度进修的要领已得到广泛应用。这些要领的优点是能够自动提炼特征。然而,初始输入数据,特别是蛋白质和小份子的数据描述,显著影响模型的性能。
在最新的钻研中,上海科技大学的钻研团队提出了一种用于预计药物-蛋白质相互作用中的共价(键合)和非共价(非键合)连系亲和力的新模型,称为指纹编码器 DTA (TEFDTA)。
图示:TEFDTA 框架。(来源:论文)
TEFDTA 从两个现有模型 DeepDTA 和 TransformerCPI 中汲取灵感。DeepDTA 提供了一种利用 1D-CNN(一维卷积神经网络)从序列中提炼特征的要领。该模型侧重于从序列信息中提炼局部模式特征,以方便特征提炼。虽然循环神经网络(RNN)也可以处理一维输入并执行特征提炼,但它们存在某些局限性。
另一方面,CNN 在有效捕获全局特征方面存在局限性。RNN 尽管能够通过网络传播处理整个序列,但会遇到随着时间的推移而忘记信息的问题。TransformerCPI 证明 Transformer 可以有效解决 CNN 和 RNN 模型中存在的问题。Transformer 构建在编码器和解码器之上。
鉴于此,该团队利用 Transformer 作为特征提炼器来提炼复杂的份子序列。值得注意的是,单个编码器足以完成此任务,因为由于潜在的收敛困难,更复杂的模型将需要更长的训练时间,而不必增强信息提炼。
为了评估 TEFDTA 的性能,钻研人员在 Davis、KIBA 和 BindingDB 数据集上举行了实验,并将结果与其他连系亲和力预计模型(即 DeepDTA 和 DeepCDA)举行了比较。
结果证实了 TEFDTA 在连系亲和力预计方面的性能。此外,通过对数据库 CovalentInDB 中键合蛋白-配体相互作用的数据集举行微调,进一步优化了该模型。共价连系数据根据常见弹头举行分类,并对每个弹头类别举行单独微调。结果表明,微调过程显著提高了模型对共价连系亲和力的预计准确性,强调了专门训练的重要性。
图示:六种常见弹头微调前后的共价连系亲和力预计比较。(来源:论文)
此外,该团队还举行了预计针对 EGFR 的药物份子的连系亲和力的案例钻研。结果表明,虽然该模型可能无法精确预计具有相同主链结构但取代基不同的份子的确切连系亲和力值,但它能够捕获份子上不同取代基引入的亲和力方差的趋势。这表明该模型对局部结构变化的潜在敏感性及其近似连系亲和力强度的能力,需要用更大的数据集举行确认以举行进一步的评估或训练。
图示:TEFDTA 对区分由微小结构差异引起的连系亲和力 (pKd) 差异的敏感性的结果。(来源:论文)
总之,TEFDTA 连系了指纹变换和 Transformer 编码器模块,为准确预计药物-靶标相互作用提供了一种改进的要领。
同样该模型也存在一些局限性。虽然该模型可以成功捕获份子序列的微小变化对亲和力的影响,但它对蛋白质片段的渐变(包括单个或几个氨基酸变化)并不敏感。对于虚拟筛选任务,当渐变发生时检测亲和力的可观察变化非常有价值。
直接从蛋白质的 FASTA 序列中提炼特征很难实现这一目标,因为单个氨基酸渐变在整个蛋白质的嵌入中是难以察觉的。然而,随着大型语言模型的出现,通过在大量蛋白质序列上预训练这些模型,通过无监督进修来提炼蛋白质的表示已经成为可能。通过利用下游任务(例如具有渐变的数据)对模型举行微调,模型变得对关键氨基酸敏感。
未来,该团队还将尝试利用大型语言模型来提炼蛋白质表示。此外,目前对共价连系亲和力的预计需要先验了解配体和靶标对的共价键类型,这可能限制了广泛和正确的应用,特别是对于非化学家来说不友好。这些方向值得在未来的钻研工作中进一步探索。
论文链接:https://academic.oup.com/bioinformatics/article/40/1/btad778/7492659