编辑 | 萝卜皮
在三十亿年的做作退化历程中,现存卵白质的形态得以形成,经历了漫长的做作筛选过程。退化如同在地质时间尺度上进行的平行试验,通过随机突变和选择机制,依据卵白质的序列、构造与功效进行筛选。
在这里,EvolutionaryScale 的钻研职员展示了在退化产生的标记上训练的言语模型可以充当退化模拟器,用于生成不同于已知卵白质序列的功效性卵白质。
钻研职员提出了 ESM3,这是一种前沿的多模态生成言语模型,可推理卵白质的序列、构造和功效。ESM3 可以结合其模态来遵循复杂的提醒,并且对生物学对齐(biological alignment)高度敏感。
钻研职员使用 ESM3 生成荧光卵白。其中一种功效上明亮的荧光卵白,与已知的荧光卵白的序列差异很大(58% 同源性)。
该钻研的预印版文章「Simulating 500 million years of evolution with a language model」近期将发布在 bioRxiv 预印平台。
做作退化是如何在超过三十亿年的时间里,雕琢出当前做作界中卵白质的多样性的呢?
这一过程涉及无数随机突变与做作选择事件,每一个环节都严格考验着卵白质的序列、构造及其执行的生物功效,只有最适应环境变化的卵白质才能留存下来。
因此,现存卵白质序列信息中实质上是蕴含着生物学变量对几十亿年漫长退化路径的影响。
EvolutionaryScale 团队中提出了一种创新方法,即利用名为 ESM3 的多模态生成言语模型,可以模拟这一宏大的退化过程。
视频链接:https://mp.weixin.qq.com/s/S_BRIJcFKuKk111Gomo7xQ
视频:ESM3 概述。(泉源:公司官网)
ESM3 不仅可以或许了解和生成卵白质序列,还能综合考虑卵白质的构造与功效,成为一个强大的退化模拟工具。该模型计划有独特的几何注意力机制,能高效处理卵白质的三维构造信息,这对于了解及预测卵白质行为至关重要。
图示:ESM3 可以同时推理卵白质序列、构造和功效。(泉源:论文)
言语模型基于离散单元或标记进行操作。为了创建一个可以或许推理卵白质的三个基本生物学特性(序列、构造和功效)的模型,钻研职员必须将三维构造和功效转换为离散字母表,并构建一种将每个三维构造写成字母序列的方法。
这使得 ESM3 可以或许进行大规模训练,从而释放新兴的生成能力。ESM3 的词汇表将序列、构造和功效都整合在同一个言语模型中。
图示:ESM3 通过序列、构造和功效的多模态提醒为 PETase 活性位点计划了一个支架。(泉源:论文)
ESM3 的训练目标很简单。对于每种卵白质,提取、标记和部分屏蔽其序列、构造和功效。ESM3 的恣意是使用受做作言语处理模型启发的屏蔽言语建模目标来预测屏蔽位置。
为了完成这项恣意,ESM3 必须学习深入了解退化规模数据中序列、构造和功效之间的联系。当扩展到数十亿种卵白质和数十亿个参数时,ESM3 学会模拟退化。
ESM3 可以或许生成不同于现有已知卵白质序列的功效性卵白质。此模型的特点在于其可以或许了解和响应复杂的多模式提醒,同时对生物学对齐有很高的敏感度。
ESM3 对生物学对齐的高度敏感,意味着它能精准地识别并遵循生物退化和功效相关的模式。通过这种对齐,模型可以或许更好地了解卵白质如何根据其生物学角色和环境需求退化,从而在计划新卵白质时,更准确地反映做作界的生物逻辑和退化约束。
它可以按照提醒生成新的卵白质。ESM3 的多模态推理能力使科学家可以或许以前所未有的控制程度生成新卵白质。例如,可以提醒模型结合构造、序列和功效,为 PETase 的活性位点提出潜在的支架,PETase 是一种降解聚对苯二甲酸乙二醇酯 (PET) 的酶,这是卵白质工程师分解塑料废物的钻研目标。
解决了更难的生成问题
图示:ESM3 模型在生成满足原子配位提醒的卵白质的恣意上进行了评估。(泉源:论文)
ESM3 解决具有挑战性的卵白质计划恣意的能力,会随着卵白质规模的扩大而显现。其中一项恣意是原子协调,即根据指定序列中距离较远但构造中距离较近的氨基酸原子位置的提醒来计划卵白质。
这衡量了模型在构造生成中实现原子级精度的能力,这对于计划功效性卵白质至关重要。ESM3 解决这些恣意的能力随着规模的扩大而提高,也就是说,ESM3 解决了更难的生成问题,而规模是其中的一个函数。
ESM3 通过使用类似于 LLM 中应用的人类反应强化学习 (RLHF) 的对齐方法,通过反应进一步改进。ESM3 无需接收人类的反应,而是可以自我改进,提供有关其自身生成质量的反应。湿试验室试验或现有试验数据的反应也可用于使 ESM3 的生成与生物学保持一致。
跨越 5 亿年的做作退化距离
钻研职员利用 ESM3 计划了一种名为 esmGFP 的新荧光卵白,它与已知最相似的荧光卵白序列同源性仅为 58%,这在以往的人工计划中是极为罕见的。
通过指导 ESM3 关注荧光卵白形成和催化色素体反应所必需的序列和构造特征,模型经过一系列迭代计划,最终产生了具有明亮荧光效果的 esmGFP。
图示:esmGFP 与已知荧光卵白比较。(泉源:论文)
该卵白不仅在序列上与已知卵白有显著差异,而且在试验中展现出与常见荧光卵白相似的荧光强度。这相当于跨越了超过 5 亿年的做作退化距离。
EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的钻研,开发人工智能来了解生物学,造福人类健康和社会。自成立以来,ESM 项目一直致力于通过代码和模型发布来开放科学,该团队承诺将继续坚持下去。
该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资,并已经与亚马逊(Amazon)和英伟达(NVIDIA)公司达成合作。
ESM相关代码:https://github.com/evolutionaryscale/esm
论文链接:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
相关报道:
https://www.evolutionaryscale.ai/blog/esm3-release
More about ESM3 from https://t.co/pmsE0Rp6ZS https://t.co/GaDIv6bmKB
— Yann LeCun (@ylecun) June 25, 2024
https://t.co/pmsE0Rp6ZS : an AI-for-proteomics startup that just came out of stealth.
They are announcing ESM3 a 98B-paramter generative LLM for "programming biology."Using ESM3 and a simulated evolutionary process, they have produced a new type GFP (Green Fluorescent Protein)… https://t.co/M3WoCiqjDJ
— Yann LeCun (@ylecun) June 25, 2024
https://x.com/ebetica/status/1805599844246884677
https://www.businesswire.com/news/home/20240625717839/en/