模拟5亿年进化的ESM3在Science发布了,可推理蛋白质序列、结构和功能

编辑 | 萝卜皮2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白。 同期上线了该研究的预印版本。 时隔半年,该研究以「Simulating 500 million years of evolution with a language model」为题,于 2025 年 1 月 16 日在《Science》发布。

模拟5亿年进化的ESM3在Science发布了,可推理蛋白质序列、结构和功能

编辑 | 萝卜皮

2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白。同期上线了该研究的预印版本。

时隔半年,该研究以「Simulating 500 million years of evolution with a language model」为题,于 2025 年 1 月 16 日在《Science》发布。

图片

让我们简单回顾一下。

超过 30 亿年的进化产生了编码在天然蛋白质空间中的生物图像。

论文里,研究人员展示了在进化数据上进行大规模训练的语言模型,可以生成远离已知蛋白质的功能性蛋白质。

他们提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。

图片

图示:ESM3 可以同时推理蛋白质序列、结构和功能。(来源:论文)

ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biological alignment)反应灵敏,从而提高其保真度。

图片

图示:ESM3 通过序列、结构和功能的多模态提示为 PETase 活性位点设计了一个支架。(来源:论文)

研究人员使用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白,它与已知最相似的荧光蛋白序列同源性仅为 58%,这在以往的人工设计中是极为罕见的。

通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征,模型经过一系列迭代设计,最终产生了具有明亮荧光效果的 esmGFP。

图片

图示:esmGFP 与已知荧光蛋白比较。(来源:论文)

该蛋白不仅在序列上与已知蛋白有显著差异,而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。

关于 EvolutionaryScale

EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究,开发人工智能来理解生物学,造福人类健康和社会。

自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。

该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。

论文链接: https://www.science.org/doi/10.1126/science.ads0018

相关内容:

https://x.com/ScienceMagazine/status/1880012426503962927

https://www.evolutionaryscale.ai/blog/esm3-release

相关资讯