编辑 | 萝卜皮
蛋白质参与了细胞组成、肌肉收缩、消化食物、识别病毒等众多生物学功能。
为了设计出更好的蛋白质(包括抗体),科学家经常在不同位置反复变异氨基酸(按一定顺序排列组成蛋白质的单位),直到使蛋白质获得所需要的功能。
但氨基酸序列的数量比世界上的沙粒还要多,因此找到最佳蛋白质,进而找到最佳潜在药物,通常难度巨大。当面临这一挑战时,科学家通常会花费数百万美元,并在微型化、简化版的生物系统中进行测试。
「这需要大量的猜测和验证。」斯坦福大学(Stanford University)化学工程助理教授兼 Arc 研究所创新研究员 Brian L. Hie 说,「许多智能算法的目标是消除其中的猜测。」
斯坦福大学的科学家开发了一种基于机器学习的新方法,可以更快、更准确地预测导致更好抗体药物的分子变化。研究人员将蛋白质骨架的 3D 结构与基于氨基酸序列的大型语言模型相结合,能够在几分钟内找到罕见且理想的突变。
该研究以「Unsupervised evolution of protein and antibody complexes with a structure-informed language model」为题,于 2024 年 7 月 4 日发布在《Science》。
尽管蛋白质结构预测取得了巨大进步,但将序列与功能联系起来仍然是各种任务的蛋白质计算机工程的关键。
仅基于序列信息进行训练的大型语言模型可以学习蛋白质设计的高级原理。然而,除了序列之外,蛋白质的三维结构还决定了它们的具体功能、活性和可进化性。
针对抗体工程问题,斯坦福大学的研究人员应用结构信息蛋白质语言模型,来预测受已知抗体或抗体-抗原复合物结构约束的高适应度序列。
研究表明,增强蛋白质结构主干坐标的通用蛋白质语言模型可以指导不同蛋白质的进化,而无需对单个功能任务进行建模。
图示:使用结构引导语言模型来指导多种蛋白质的进化。(来源:论文)
这里的蛋白质设计框架没有模拟明确的蛋白质功能或蛋白质适应性的定义。相反,使用结构引导范式,研究人员利用这种序列结构退化,通过将探索重点放在保留蛋白质主链折叠的区域来间接探索潜在的适应度景观。他们假设将进化限制在高序列似然的范围内可以作为高适应度变体的有效先验,从而提高进化效率。
结构引导方法可以间接研究蛋白质适应度景观,而无需明确模拟单个功能任务或特性,使其广泛应用于从酶催化到抗生素和化疗耐药性等不同环境中的蛋白质。
仅在单链结构上进行训练的 ESM-IF1 (该模型无法获取氨基酸侧链原子、坐标或键信息)可以扩展到设计蛋白质复合物。这表明,尽管结构信息语言模型只对单链蛋白质进行训练,但它能够通过隐式学习结合特征的能力推广到多聚蛋白质。
研究人员推断,这种方法可能对人类抗体的进化特别有价值,人类抗体在临床上用于治疗多种疾病。抗体通过选择性结合参与发病机制的靶抗原并改变或破坏其功能来提供保护。
「人工智能和药物开发的大量努力都集中在收集有关某种分子如何执行某项任务的大量数据,以便计算机能够学习到足够的知识来设计出更好的版本。」斯坦福大学生物化学教授兼 Sarafan ChEM-H 研究所学者 Peter S. Kim 说,「值得注意的是,我们已经证明,结构可以代替大量数据,而计算机仍然能够学习。」
「现在,更多的抗体实际上有机会得到优化。」Hie 说道。
研究人员考虑改善现有蛋白质所需功能的定向进化问题。与其他 14 种有前景的机器学习引导蛋白质进化方法相比,这些方法用于实验性地指导各种蛋白质的定向进化活动;该方法生成功能活性优于野生型蛋白质的设计的成功率具有优势,而且不需要任何分析标记的适应度数据用于训练或特定任务的模型监督。
图示:利用结构信息语言模型进化抗体可提高中和效力和弹性。(来源:论文)
通过这种方法,该团队筛选了约 30 种用于治疗严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 感染的两种治疗性临床抗体的变体。同时,研究人员对 BQ.1.1 和 XBB.1.5 抗体逃逸病毒变体的中和作用分别提高了 25 倍,亲和力提高了 37 倍。
总之,这一工具将有助于快速应对新出现或正在发展的疾病。它还降低了制造更有效药物的门槛。更强的药物意味着需要更低的剂量,这意味着给定的剂量可以使更多的患者受益。
论文链接:https://www.science.org/doi/10.1126/science.adk8946
相关报道:https://phys.org/news/2024-07-ai-approach-optimizes-antibody-drugs.html