模拟5亿年进化的ESM3在Science发布了，可推理蛋白质序列、结构和功能

2025-01-17 03:31

编辑 | 萝卜皮2024 年夏天 EvolutionaryScale 推出了 ESM3，一款面向蛋白质语言的大模型，成功在自然进化未曾涉足的区域设计出功能性蛋白。同期上线了该研究的预印版本。时隔半年，该研究以「Simulating 500 million years of evolution with a language model」为题，于 2025 年 1 月 16 日在《Science》发布。

编辑 | 萝卜皮

2024 年夏天 EvolutionaryScale 推出了 ESM3，一款面向蛋白质语言的大模型，成功在自然进化未曾涉足的区域设计出功能性蛋白。同期上线了该研究的预印版本。

时隔半年，该研究以「Simulating 500 million years of evolution with a language model」为题，于 2025 年 1 月 16 日在《Science》发布。

让我们简单回顾一下。

超过 30 亿年的进化产生了编码在天然蛋白质空间中的生物图像。

论文里，研究人员展示了在进化数据上进行大规模训练的语言模型，可以生成远离已知蛋白质的功能性蛋白质。

他们提出了 ESM3，这是一种前沿的多模态生成语言模型，可推理蛋白质的序列、结构和功能。

图示：ESM3 可以同时推理蛋白质序列、结构和功能。（来源：论文）

ESM3 可以结合其模态来遵循复杂的提示，并且对生物学对齐（biological alignment）反应灵敏，从而提高其保真度。

图示：ESM3 通过序列、结构和功能的多模态提示为 PETase 活性位点设计了一个支架。（来源：论文）

研究人员使用 ESM3 设计了一种名为 esmGFP 的新荧光蛋白，它与已知最相似的荧光蛋白序列同源性仅为 58%，这在以往的人工设计中是极为罕见的。

通过指导 ESM3 关注荧光蛋白形成和催化色素体反应所必需的序列和结构特征，模型经过一系列迭代设计，最终产生了具有明亮荧光效果的 esmGFP。

图示：esmGFP 与已知荧光蛋白比较。（来源：论文）

该蛋白不仅在序列上与已知蛋白有显著差异，而且在实验中展现出与常见荧光蛋白相似的荧光强度。这相当于跨越了超过 5 亿年的自然进化距离。

关于 EvolutionaryScale

EvolutionaryScale 是一家非盈利公司。他们的使命是通过与科学界合作以及开放、安全和负责任的研究，开发人工智能来理解生物学，造福人类健康和社会。

自成立以来，ESM 项目一直致力于通过代码和模型发布来开放科学，该团队承诺将继续坚持下去。

该公司成立于 2023 年 7 月已经完成 1.42 亿美元种子轮融资，并已经与亚马逊（Amazon）和英伟达（NVIDIA）公司达成合作。

论文链接： https://www.science.org/doi/10.1126/science.ads0018

仅总参数量0.1%、单GPU 15分钟完成微调，人类基因组基础模型NT登Nature子刊

编辑 | 萝卜皮从 DNA 序列预测分子表型仍然是基因组学中的一个长期挑战，通常是由于注释数据有限以及无法在任务之间转移学习所致。在这里，英国伦敦 InstaDeep 的研究人员提出了在 DNA 序列上进行预训练的基础模型，称为 Nucleotide Transformer；其参数范围从 5000 万到 25 亿，并整合了来自 3,202 个人类基因组和 850 个不同物种基因组的信息。这些 Transformer 模型可生成特定上下文的核苷酸序列表示，即使在低数据环境下也能实现准确预测。

12/4/2024 2:20:00 PM

ScienceAI

AlphaFold3开源了，诺奖AI工具人人可用，开启生物分子设计新时代

编辑 | ScienceAIAlphaFold3 终于开源了。六个月前 AlphaFold3 发布的时候，谷歌 DeepMind 没有公布其论文代码，因此引发了学界的巨大争议。如今，DeepMind 于 11 月 11 日宣布，科学家现在可以免费下载软件代码，并将 AlphaFold3 用于非商业应用。

11/12/2024 4:36:00 PM

ScienceAI

新SOTA，浙大、中科院深度学习模型可靠、准确预测蛋白-配体，助力药物开发

编辑 | 萝卜皮准确预测蛋白质-配体相互作用对于理解细胞过程至关重要，目前仍面临着诸多挑战。中国科学院、浙江大学的研究人员提出了 SurfDock，这是一种深度学习方法，通过将蛋白质序列、三维结构图和表面级特征整合到等变架构中来解决这一挑战。 SurfDock 在非欧几里德流形上采用生成扩散模型，优化分子平移、旋转和扭转以生成可靠的结合姿势。

12/18/2024 2:24:00 PM

ScienceAI

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind

顶部

模拟5亿年进化的ESM3在Science发布了，可推理蛋白质序列、结构和功能

相关资讯

仅总参数量0.1%、单GPU 15分钟完成微调，人类基因组基础模型NT登Nature子刊

AlphaFold3开源了，诺奖AI工具人人可用，开启生物分子设计新时代

新SOTA，浙大、中科院深度学习模型可靠、准确预测蛋白-配体，助力药物开发