编辑 | 萝卜皮
一项新的人工智能应用将帮助研究人员提高药物研发能力。
该项目名为 TopoFormer,是由美国密歇根州立大学(Michigan State University)数学系 Guowei Wei 教授领导的跨学科团队开发的。
TopoFormer 将分子的三维信息转化为典型的基于人工智能的药物相互作用模型可以使用的数据,扩展了这些模型预测药物有效性的能力。
「有了人工智能,你可以让药物研发更快、更高效、更便宜。」Wei 说,他同时在生物化学和分子生物学系以及电气和计算机工程系任职。
Wei 教授解释道,在美国,开发一种药物大约需要十年时间,耗资约 20 亿美元。药物试验大约占了一半的时间,而另一半时间则用于发现新的治疗候选药物进行测试。
TopoFormer 有潜力缩短开发时间。这样一来,就可以降低药物开发成本,从而降低下游消费者的药品价格。
该研究以「Multiscale topology-enabled structure-to-sequence transformer for protein–ligand interaction predictions」为题,于 2024 年 6 月 24 日发布在《Nature Machine Intelligence》。
尽管研究人员可以使用计算机模型来辅助药物研发,但由于问题变量众多,因此存在众多局限性。
「我们的身体中有超过 20,000 种蛋白质。」Wei 说,「当一种疾病出现时,其中一些或其中一种就会成为目标。」
那么,第一步就是了解疾病会影响哪种或哪些蛋白质。这些蛋白质也成为研究人员的目标,他们希望找到能够预防、减轻或抵消疾病影响的分子。
「当我有一个目标时,我会尝试针对该特定目标寻找大量潜在药物,」Wei 说。
一旦科学家知道了药物应该针对哪些蛋白质,他们就可以将蛋白质和潜在药物的分子序列输入传统的计算机模型中。这些模型可以预测药物和靶标将如何相互作用,指导开发和在临床试验中测试哪些药物。
虽然这些模型可以仅根据药物和蛋白质的化学组成来预测一些相互作用,但它们也忽略了来自分子形状和三维或 3D 结构的重要相互作用。
20 世纪 60 年代化学家发现的布洛芬就是一个例子。有两种不同的布洛芬分子,它们具有相同的化学序列,但 3D 结构略有不同。只有一种排列方式可以与疼痛相关蛋白质结合并消除头痛。
Guowei Wei 说:「目前的深度学习模型在预测药物或蛋白质如何协同作用时无法解释它们的形状。」
Transformer 架构引入了一种新技术,利用注意力机制进行跨域顺序数据分析。受此启发,Wei 团队开发了一个拓扑 Transformer 模型 TopoFormer,将 Persistent Topological Hyperdigraph Laplacian(PTHL)与 Transformer 框架集成在一起。
与处理蛋白质和配体序列的传统 Transformer 不同,TopoFormer 输入 3D 蛋白质-配体复合物。它通过 PTHL 将这些复合物转换为拓扑不变量和同伦形状的序列,从而在多个尺度上捕捉它们的物理、化学和生物相互作用。
在多样化数据集上进行预训练,TopoFormer 能够理解复杂的分子相互作用,包括分子序列中不明显的立体化学效应。在特定数据集上进行微调,可以捕获复合物内的详细相互作用及其相对于整个数据集的特征,从而增强下游深度学习应用。
图示:TopoFormer 整体模型的示意图。(来源:论文)
为了集中分析,研究人员使用 20 Å 或更精确的 12 Å 截止值来识别设定距离内的重配体和附近的蛋白质原子。然后,TopoFormer 通过拓扑序列嵌入模块将 3D 分子结构转换为拓扑序列,利用 PTHL 进行多尺度分析。此过程将各种物理、化学和生物相互作用嵌入载体序列中。
TopoFormer 使用未标记的蛋白质-配体复合物进行自监督预训练,使用 Transformer 编码器-解码器重建拓扑序列。此阶段通过比较输出和输入嵌入来测量准确性,为模型做好准备,以便在没有标记数据的情况下了解蛋白质-配体动力学。
预训练后,TopoFormer 进入带标记复合体的监督微调阶段,其中初始嵌入向量成为评分、排名、对接和筛选等下游任务的关键特征。每个任务在预测器模块中都有一个专用的头。
为了确保准确性并减少偏差,TopoFormer 集成了多个使用不同种子初始化的拓扑变换深度学习模型,并用基于序列的模型对其进行了补充。
最终输出是这些不同预测的共识,这使得 TopoFormer 成为一个分析蛋白质-配体相互作用的综合模型,既利用了拓扑洞察力,又利用了深度学习。
图示:TopoFormer 在评分和排名任务中的表现。(来源:论文)
这种方法允许使用各种维度的有向超边来建模简单的成对连接以外的复杂相互作用。此外,这些边的方向结合了物理和化学特性,例如电负性和电离能,从而提供比传统方法更细致入微的表示。研究人员通过用有向超边区分两个 B7C2H9 异构体证明了这种能力,展示了该方法有效区分元素构型的能力。
在研究蛋白质-配体复合物时,研究人员采用拓扑超有向图作为初始表示,并通过 PTHL 理论进一步增强,以分析其几何和拓扑特征。
从分子结构等物理系统中汲取灵感,其中零维霍奇拉普拉斯算子与定义明确的量子系统的哈密顿量的动能算子有联系,研究人员将离散类比扩展到拓扑超有向图。拉普拉斯矩阵的这些特征值提供了对拓扑对象属性的洞察,类似于物理系统的能量谱。
与传统的持久同源性相比,PTHL 方法通过分析除单纯复形之外的更广泛的结构,标志着一项重大进步。它通过持久拉普拉斯算子的非谐波谱捕获基本同源性信息和几何见解,包括贝蒂数和同伦形状演化。
分析结果显示,与传统同源性相比,它提供了更全面的表征。拉普拉斯算子的零特征值的多重性(对应于贝蒂数)证实了该方法包含条形码信息,为理解蛋白质-配体复合物提供了一个强大的框架。
图示:TopoFormer 在对接和筛选任务中的表现。(来源:论文)
为了捕捉蛋白质-配体复合物中复杂的原子相互作用,包括共价力、离子力和范德华力,研究人员利用 PTHL 进行多尺度分析。该方法允许通过基于过滤参数演化拓扑序列,来检查跨尺度相互作用,从而帮助 Transformer 模型识别每个尺度对结合亲和力等属性的权重。
元素相互作用,包括氢键、范德华力和 π 堆积,是蛋白质-配体复合物稳定性和特异性的基础。为了在元素层面分析这些相互作用,研究人员在拓扑序列嵌入中引入了元素特定分析。
该方法根据蛋白质和配体中的常见重元素构建子超图,生成元素特定的拉普拉斯矩阵来编码复合物内的相互作用。该技术提取详细的物理和化学特征,增强了 Transformer 模型对蛋白质-配体相互作用中复杂动力学的理解。
结语
总而言之,TopoFormer 经过训练可以读取一种形式的信息并将其转换为另一种形式。在这种情况下,它会根据蛋白质和药物的形状获取有关它们如何相互作用的三维信息,并将其重建为当前模型可以理解的一维信息。
新模型经过数万种蛋白质-药物相互作用的训练,其中两种分子之间的每种相互作用都被记录为一段代码或一个「单词」。这些单词串在一起形成对药物-蛋白质复合物的描述,从而创建其形状的记录。
「这样,你就有了许多单词像句子一样串联起来。」Wei 说。
然后,其他预测新药相互作用的模型可以读取这些句子,并为它们提供更多背景信息。如果一种新药是一本书,TopoFormer 可以将一个粗略的故事构思变成一个完整的情节,随时可以写作。
论文链接:https://www.nature.com/articles/s42256-024-00855-1
相关报道:https://phys.org/news/2024-06-drug-discovery-ai-3d-typical.html