「定制化」结合蛋白质,几何深度学习方法加速开发精准药物,登Nature

编辑 | 萝卜皮蛋白质是生命的基础,具有多样的生物功能,如输送氧气、传递化学信号和防御病原体。 其分子表面的特异性决定了其功能,这一特性被用于药物开发,通过设计分子与特定蛋白质结合来改变其结合方式,甚至开发「分子胶」来治疗疾病。 奥地利科学院(ÖAW)的 Michael Bronstein、瑞士洛桑联邦理工学(EPFL)的 Bruno Correia 等,率先使用了一种名为「MaSIF(molecular surface interaction fingerprinting)」的几何深度学习架构,用于设计具有所需分子表面特性的新蛋白质。

图片

编辑 | 萝卜皮

蛋白质是生命的基础,具有多样的生物功能,如输送氧气、传递化学信号和防御病原体。

其分子表面的特异性决定了其功能,这一特性被用于药物开发,通过设计分子与特定蛋白质结合来改变其结合方式,甚至开发「分子胶」来治疗疾病。

奥地利科学院(ÖAW)的 Michael Bronstein、瑞士洛桑联邦理工学(EPFL)的 Bruno Correia 等,率先使用了一种名为「MaSIF(molecular surface interaction fingerprinting)」的几何深度学习架构,用于设计具有所需分子表面特性的新蛋白质。

在最新的论文中,该团队将 MaSIF 应用于结合药物分子的蛋白质,并展示了如何用它设计「定制化」的蛋白质。

该研究以「Targeting protein–ligand neosurfaces with a generalizable deep learning tool」为题,于 2025 年 1 月 15 日发布在《Nature》。

图片

大多数基于深度学习的蛋白质设计流程主要以天然氨基酸库为条件,因此缺乏对小分子相互作用设计的泛化能力。

这一差距主要是由于基于蛋白质数据库(PDB)的训练集中缺乏蛋白质-配体结构数据,尤其是三元复合物,而此类结构在 PDB 中非常罕见。

几何深度学习方法以分子表面的物理和化学特征为原则,可以克服这些限制,并为蛋白质和小分子复合物提供联合表征。

由此产生的新表面能够捕获可推广的分子特征,从而可以针对这些混合界面,设计蛋白质结合剂。

图片

图示:捕获 Neosurface 属性来识别界面位置和结合伴侣。(来源:论文)

研究人员提出了一种基于几何深度学习的框架,称为 MaSIF,用于研究蛋白质表面特征和设计新的 PPI。

在几何深度学习框架 MaSIF 中,研究人员之前开发了两个应用程序:

(1) MaSIF-site,用于准确预测蛋白质表面中与另一种蛋白质形成界面的可能性较高的区域;

(2) MaSIF-search,用于根据互补表面斑块快速查找和对接蛋白质伴侣。

在 MaSIF 搜索中,先提取表面斑块描述符(指纹,fingerprints),以便具有互补几何和化学性质的斑块具有相似的指纹,而非相互作用的斑块具有较低的指纹相似度。

图片

图示:使用 MaSIF-neosurf 设计配体诱导的蛋白质相互作用。(来源:论文)

表面指纹能够利用它们之间的欧几里德距离以无需对齐的方式实现初始超快速搜索。指纹距离低于阈值的斑块随后在三维空间中进一步对齐,并使用界面后对齐 (IPA) 分数进行评分,以优化选择。

「机器学习方法面临的一个关键挑战是它们的泛化能力,或者说该方法对从未见过的数据的处理效果如何。」Bronstein 解释道,「我们的研究结果令人惊讶且令人满意,即经过蛋白质间自然相互作用训练的神经网络可以很好地推广到从未见过的蛋白质-配体新表面。看来,我们的方法提取的分子表面几何描述符是蛋白质相互作用的一种『通用语言』。」

图片

图示:小分子依赖性结合剂的从头设计和筛选。(来源:论文)

在最初的构想中,MaSIF 仅将典型氨基酸视为蛋白质分子表面的一部分,与小分子、聚糖或其他配体不兼容。

因此,研究人员推出了 MaSIF-neosurf,它将小分子作为目标蛋白质分子表面表示的一部分,以根据新表面指纹预测界面和伴侣。

MaSIF 最初被训练用于处理生物分子的一般化学和几何表面特性,同时抽象底层结构。因此,它不仅限于蛋白质表面,原则上也应该捕捉非蛋白质表面产生的表面模式。

在生成蛋白质-配体复合物的分子表面后,MaSIF-neosurf 计算两个几何特征:形状指数和距离相关曲率。

此外,还使用了三个化学特征:泊松-玻尔兹曼静电(可以直接从小分子计算得出);氢键供体/受体倾向和疏水性。为此研究人员还开发了新的特征化器,专门用于捕捉小分子的化学性质。

图片

图示:设计的粘合剂的结合模式、亲和力和结构确定。(来源:论文)

为了验证提出的策略,研究人员设计了位点特异性结合剂,以由小分子配体和蛋白质表面部分组成的新表面为目标,从而产生从头配体依赖的蛋白质相互作用。尽管最先进的工具在配体-蛋白质相互作用的预测和设计方面表现出良好的性能,但它们并不适合从头三元复合物的设计,由于数据稀缺,这尤其具有挑战性。

在这里,研究人员成功设计并表征了新的药物诱导蛋白结合剂,该结合剂可识别 B 细胞淋巴瘤 2 (Bcl2) 蛋白与临床批准的抑制剂 venetoclax 的复合物、孕酮结合抗体 DB3 与其配体的复合物,以及最后识别来自铜绿假单胞菌的肽脱甲酰酶 1 (PDF1) 蛋白与抗生素放线菌素 30 的复合物。

图片

图示:计算设计的 CID 在基于细胞的系统中发挥作用。(来源:论文)

「MaSIF 的参数数量相对较少,大约只有 70,000 个,而大型深度学习系统(如 ChatGPT)的参数数量则多达数十亿个。」论文共同一作 Arne Schneuing 解释道,「这是可能的,因为我们只使用关键的表面特征,从而实现了高度的抽象。换句话说,我们不会给系统完整的画面;我们只提供我们认为对解决问题很重要的部分。」

论文的共同一作 Anthony Marchand 表示,他对新方法的前景感到兴奋。「我们的想法是设计一种相互作用,让一个小分子使两种蛋白质结合在一起。一些方法专注于筛选这样的小分子,但我们希望设计一种能与确定的蛋白质-药物复合物结合的新型蛋白质。」

Marchand 认为:「此类设计的化学诱导蛋白质相互作用,将有可能扩大传感范围和工程细胞中新合成途径的组装,从而实现创新的药物控制细胞疗法。」

论文链接:https://www.nature.com/articles/s41586-024-08435-4

相关报道:https://phys.org/news/2025-01-geometric-machine-method-precision-drug.html

相关资讯

辉瑞 AI 方法登 Science,揭示数以万计的配体-蛋白质相互作用

编辑 | X尽管蛋白质结构预测取得了重大进展。但对于 80% 以上的蛋白质,迄今为止尚未发现小分子配体。识别大多数蛋白质的小分子配体仍具有挑战性。现在,奥地利科学院分子医学研究中心 CeMM 的研究人员与辉瑞公司合作,开发了一种方法来预测数百种小分子与数千种人类蛋白质的结合活性。这项大规模研究揭示了数以万计的配体-蛋白质相互作用,通过探索这些相互作用,从而可以开发化学工具和治疗方法。此外,在机器学习和人工智能的支持下,它可以「公正」地预测小分子如何与活体人类细胞中存在的所有蛋白质相互作用。相关研究以《Large-s

可预测蛋白质-配体结合亲和力,之江实验室&百度&港科大团队开发基于曲率的自适应图神经网络

编辑 | 萝卜皮准确预测蛋白质和配体之间的结合亲和力对于药物发现至关重要。图神经网络(GNN)的最新进展在学习蛋白质-配体复合物的表示以估计结合亲和力方面取得了重大进展。为了提高 GNN 的性能,经常需要从几何角度研究蛋白质-配体复合物。虽然「现成的」GNN 可以包含分子的一些基本几何结构,例如距离和角度,通过将复合体建模为同亲图,这些解决方案很少考虑更高级别的几何属性,例如曲率和同源性,以及异亲相互作用。为了解决这些限制,之江实验室、百度大数据以及香港科技大学的研究人员引入了基于曲率的自适应图神经网络(CurvA

更高准确性,覆盖蛋白、核酸、复合物等更多分子,DeepMind发布AlphaFold新版本

编辑 | ScienceAI自 2020 年发布以来,AlphaFold 彻底改变了人们对蛋白质及其相互作用的理解方式。Google DeepMind 和 Isomorphic Labs 一直在共同努力,为更强大的 AI 模型奠定基础,将覆盖范围从蛋白质扩展到全方位的生物相关分子。2023 年 10 月 31 日,该研究团队分享了下一代 AlphaFold 的最新进展。其最新的模型现在可以对蛋白质数据库 (PDB) 中的几乎所有分子进行预测,通常达到原子精度。新版模型 AlphaFold-latest (暂称)极大