模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型

编辑 | 萝卜皮在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biologi

图片

编辑 | 萝卜皮

在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。

在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。

研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)高度敏感。

研究人员使用 ESM3 生成荧光蛋白。其中一种功能上明亮的荧光蛋白,与已知的荧光蛋白的序列差异很大(58% 同源性)。

该研究的预印版文章「Simulating 500 million years of evolution with a language model」近期将发布在 bioRxiv 预印平台。

图片

自然进化是如何在超过三十亿年的时间里,雕琢出当前自然界中蛋白质的多样性的呢?

这一过程涉及无数随机突变与自然选择事件,每一个环节都严格考验着蛋白质的序列、结构及其执行的生物功能,只有最适应环境变化的蛋白质才能留存下来。

因此,现存蛋白质序列信息中实质上是蕴含着生物学变量对几十亿年漫长进化路径的影响。

EvolutionaryScale 团队中提出了一种创新方法,即利用名为 ESM3 的多模态生成语言模型,可以模拟这一宏大的进化过程。

模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型

视频链接:https://mp.weixin.qq.com/s/S_BRIJcFKuKk111Gomo7xQ

视频:ESM3 概述。(来源:公司官网)

ESM3 不仅能够理解和生成蛋白质序列,还能综合考虑蛋白质的结构与功能,成为一个强大的进化模拟工具。该模型设计有独特的几何注意力机制,能高效处理蛋白质的三维结构信息,这对于理解及预测蛋白质行为至关重要。

图片

图示:ESM3 可以同时推理蛋白质序列、结构和功能。(来源:论文)

语言模型基于离散单元或标记进行操作。为了创建一个能够推理蛋白质的三个基本生物学特性(序列、结构和功能)的模型,研究人员必须将三维结构和功能转换为离散字母表,并构建一种将每个三维结构写成字母序列的方法。

这使得 ESM3 能够进行大规模训练,从而释放新兴的生成能力。ESM3 的词汇表将序列、结构和功能都整合在同一个语言模型中。

图片

图示:ESM3 通过序列、结构和功能的多模态提示为 PETase 活性位点设计了一个支架。(来源:论文)

ESM3 的训练目标很简单。对于每种蛋白质,提取、标记和部分屏蔽其序列、结构和功能。ESM3 的任务是使用受自然语言处理模型启发的屏蔽语言建模目标来预测屏蔽位置。

为了完成这项任务,ESM3 必须学习深入了解进化规模数据中序列、结构和功能之间的联系。当扩展到数十亿种蛋白质和数十亿个参数时,ESM3 学会模拟进化。

ESM3 能够生成不同于现有已知蛋白质序列的功能性蛋白质。此模型的特点在于其能够理解和响应复杂的多模式提示,同时对生物学对齐有很高的敏感度。

ESM3 对生物学对齐的高度敏感,意味着它能精准地识别并遵循生物进化和功能相关的模式。通过这种对齐,模型能够更好地理解蛋白质如何根据其生物学角色和环境需求进化,从而在设计新蛋白质时,更准确地反映自然界的生物逻辑和进化约束。

它可以按照提示生成新的蛋白质。ESM3 的多模态推理能力使科学家能够以前所未有的控制程度生成新蛋白质。例如,可以提示模型结合结构、序列和功能,为 PETase 的活性位点提出潜在的支架,PETase 是一种降解聚对苯二甲酸乙二醇酯 (PET) 的酶,这是蛋白质工程师分解塑料废物的研究目标。

解决了更难的生成问题

图片

图示:ESM3 模型在生成满足原子配位提示的蛋白质的任务上进行了评估。(来源:论文)

ESM3 解决具有挑战性的蛋白质设计任务的能力,会随着蛋白质规模的扩大而显现。其中一项任务是原子协调,即根据指定序列中距离较远但结构中距离较近的氨基酸原子位置的提示来设计蛋白质。

这衡量了模型在结构生成中实现原子级精度的能力,这对于设计功能性蛋白质至关重要。ESM3 解决这些任务的能力随着规模的扩大而提高,也就是说,ESM3 解决了更难的生成问题,而规模是其中的一个函数。

ESM3 通过使用类似于 LLM 中应用的人类反馈强化学习 (RLHF) 的对齐方法,通过反馈进一步改进。ESM3 无需接收人类的反馈,而是可以自我改进,提供有关其自身生成质量的反馈。湿实验室实验或现有实验数据的反馈也可用于使 ESM3 的生成与生物学保持一致。

跨越 5 亿年的自然进化距离

研究人员利用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白,它与已知最相似的荧光蛋白序列同源性仅为 58%,这在以往的人工设计中是极为罕见的。

通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征,模型经过一系列迭代设计,最终产生了具有明亮荧光效果的 esmGFP。

图片

图示:esmGFP 与已知荧光蛋白比较。(来源:论文)

该蛋白不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。

EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。

该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。

ESM相关代码:https://github.com/evolutionaryscale/esm

论文链接:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf

相关报道:

https://www.evolutionaryscale.ai/blog/esm3-release

https://twitter.com/ylecun/status/1805634811773571496

https://twitter.com/ylecun/status/1805581310548697360

https://x.com/ebetica/status/1805599844246884677

https://www.businesswire.com/news/home/20240625717839/en/

相关资讯

制药新工具、有望规避免疫反应,多伦多大学团队用AI框架重新设计参与基因治疗的关键蛋白质

编辑 | 萝卜皮当下,蛋白质设计深度生成模型的快速进展主要集中在具有大量数据的小蛋白质上。这些模型在天然序列有限的大蛋白上表现不佳,例如腺病毒和腺相关病毒的衣壳蛋白,它们是基因治疗的常见递送载体。生成合成病毒载体血清型可以克服大多数基因治疗接受者表现出的强大的预先存在的免疫反应。多伦多大学的研究人员提出了一种变异自动编码器(ProteinVAE),它可以生成合成病毒载体血清型,而无需预先存在的中和抗体的表位。将预先训练的蛋白质语言模型纳入编码器中以提高数据效率,并使用基于反卷积的上采样进行解码以避免长蛋白质序列生成

登Nature子刊,中科院计算所团队开发CarbonDesign,进行准确且稳健的蛋白质序列设计

编辑 | 萝卜皮蛋白质是生物体内执行生物功能的基础元件,在催化、免疫和信号传递等生物过程中起着重要作用。一般认为,蛋白质序列设计是蛋白质结构预测的逆问题。具体地,是指从给定的蛋白质三维结构出发,设计出能够折叠成为目标蛋白结构、具有目标蛋白功能的序列。它是从头蛋白质设计的关键一步,一旦主链结构被生成,为其设计最佳序列就变得至关重要。蛋白质序列设计在药物设计、酶工程等领域具有重要应用。由于可能的蛋白质序列和结构比宇宙中的粒子数量还要多,当前实现准确且稳健的蛋白质序列设计,仍然是一个挑战。中国科学院计算技术研究所张海仓、

MIT研究人员将Transformer与图神经网络结合,用于设计全新蛋白质

编辑 | 萝卜皮凭借其复杂的排列和动态功能,蛋白质通过采用简单构建块的独特排列(其中几何形状是关键)来执行大量的生物任务。将这个几乎无限的排列库转化为各自的功能,可以方便研究人员设计用于特定用途的定制蛋白质。麻省理工学院(MIT)的 Markus Buehler 提出了一种灵活的基于语言模型的深度学习策略,将 Transformer 与图神经网络结合起来,以更好地理解和设计蛋白质。「通过这种新方法,我们可以通过对基本原理进行建模,利用大自然发明的一切作为知识基础。」Buehler 说,「该模型重新组合了这些自然构建