LLM时代，计算蛋白质科学进展如何？香港理工大学等发布系统性综述

2025-02-07 06:25

编辑丨coisini作为生命的基本构建单元，蛋白质在几乎所有基本生命活动中扮演着不可或缺的角色，例如新陈代谢、信号传导、免疫反应等。如下图所示，蛋白质遵循序列 - 结构 - 功能范式。图注：蛋白质遵循序列-结构-功能范式。

编辑丨coisini

作为生命的基本构建单元，蛋白质在几乎所有基本生命活动中扮演着不可或缺的角色，例如新陈代谢、信号传导、免疫反应等。如下图所示，蛋白质遵循序列 - 结构 - 功能范式。

图注：蛋白质遵循序列-结构-功能范式。（图源：论文）

随着科学探索的不断推进，破译蛋白质语言并应用蛋白质序列 - 结构 - 功能之间的信息流动规则面临更大的挑战。研究人员积极引入强大的 LLM 技术来推动计算蛋白质科学的发展，开发了蛋白质语言模型（pLMs），这些模型巧妙地掌握了蛋白质的基础知识，并能够有效地泛化以解决各种序列 - 结构 - 功能推理问题。

近期，为了帮助具有 AI 或生物学背景的研究人员快速了解相关进展并获得启发，来自香港理工大学等机构的研究团队对 LLM 技术支持下的计算蛋白质科学进行了系统性的综述。

论文地址：https://arxiv.org/pdf/2501.10282

这篇综述首先概述了蛋白质建模中的生物学基础和数据概况，其次回顾了三类蛋白质语言模型（pLMs），这些模型能够理解氨基酸序列、识别结构和功能信息，并连接多种生物医学语言，接着该综述介绍了 pLMs 的利用和适应性，重点强调了 pLMs 在结构预测、功能预测和蛋白质设计中的重大影响。然后，该综述详细说明了 pLMs 在抗体设计、酶设计和药物靶点发现中的应用潜力，最后分享了这一快速发展领域的未来方向。

图注：生物学基础与数据概况。（来源：论文）

下面是综述主要内容概览。

预训练蛋白质语言模型

该综述将现有蛋白质语言模型（pLMs）分类为基于序列的模型、结构与功能增强的模型以及多模态模型。

基于序列的 pLMs

通用 LLM 能够捕捉子词 token 之间的相互依赖关系，并深入理解文本的语法和语义。类似地，基于序列的 pLMs 能够捕捉氨基酸（AA）token 之间的相互依赖关系，提取有利的序列模式，并掌握隐含的结构和功能信息。基于序列的 pLMs 可以进一步分为基于单序列的模型和基于多序列的模型。前者通过相应的氨基酸序列描述每个蛋白质，后者则采用检索增强的思想，通过进化或合成中的多个相关序列来描述每个蛋白质。下表提供了基于序列的 pLMs 的全面总结，概述了每个 pLM 的输入数据、网络架构和预训练目标。

表注：基于序列的 pLMs。（来源：论文）

结构与功能增强的 pLMs

基于序列的蛋白质语言模型通过大规模预训练展示了从蛋白质序列中捕捉隐含结构和功能语义的能力，而进一步整合显式知识可以在更全面的层次上增强其对蛋白质的理解。该综述介绍了构建结构与功能增强的 pLMs 的最新进展，分别解释了蛋白质结构和功能的数据形式，并介绍了相应的整合方法。

表注：结构与功能增强的 pLMs。（来源：论文）

多模态 pLMs

上述蛋白质语言模型能够解析蛋白质序列并理解其结构和功能信息，其中一些模型整合了与蛋白质相关的文本描述，但它们的主要关注点仍然是围绕蛋白质的语义。该综述接下来介绍了在外在语言中表现出色的 pLMs，这些外在语言包括包含世界知识的自然语言、化学分子语言等。由于这些语言传达了极为多样化的语义，该综述将它们视为不同的模态。下表对多模态 pLMs 进行了总结。

表注：多模态 pLMs。（来源：论文）

蛋白质语言模型的利用和适应

该综述通过考虑蛋白质结构预测、蛋白质功能预测和蛋白质设计中的待解决问题，总结了 pLMs 的利用和适应方法。

蛋白质结构预测

迄今为止，蛋白质数据库（Protein Data Bank）中仅收集了约二十万个通过实验确定的结构。以这种发展速度，要分析数亿个已测序但结构未知的天然蛋白质，将需要数百万个研究年。如果计算模型能够从氨基酸序列中准确推断出蛋白质的原子级三维结构，人类对蛋白质结构的理解进程将大大加快。

近年来，人工智能和计算能力的快速发展极大地推动了蛋白质结构预测的进步。诸如 AlphaFold2 和 RoseTTAFold 等突破性方法在预测蛋白质结构方面展现了接近实验精度的前所未有的水平。它们已成为科学家在数十分钟内获得可靠蛋白质结构的重要工具。

图注：AlphaFold2 和 ESMFold 的工作流程概述。（来源：论文）

蛋白质功能预测

与明确界定的蛋白质序列和结构不同，蛋白质功能展现出多方面的特性，因为不同的蛋白质在广泛的生物系统中扮演着多样的生物学角色。

在 pLMs 出现之前，人工智能模型是针对各种蛋白质功能预测任务从头开始单独训练的。这种传统范式有一个严重的缺点：由于模型缺乏可迁移的蛋白质知识，预测性能往往不尽如人意，尤其是在数据稀缺的情况下。为了克服这一问题，pLMs 已成功应用于蛋白质功能预测。

图注：基于pLMs的蛋白质功能预测的典型技术方案。（来源：论文）

蛋白质设计

为了创造出具有所需功能的新蛋白质，领域研究需要高效地探索广阔的蛋白质空间，以找到数量可控、合理、功能显著且多样化的蛋白质序列。根据是从现有蛋白质开始还是从头开始，蛋白质设计可以分为两大类：重新设计和从头设计。

蛋白质重新设计从现有蛋白质出发，探索蛋白质空间，旨在增强现有的功能特性。

图注：蛋白质重新设计。（来源：论文）

与改造现有蛋白质不同，从头设计蛋白质旨在在没有参考序列的情况下提出全新功能性蛋白质。这是一项极具挑战性的任务，因为它要求模型在广阔的蛋白质空间中准确把握哪些序列和结构能够实现所需的功能。与此同时，从头设计蛋白质具有显著优势，例如揭示自然界中从未见过的功能，并提供对设计过程的完全控制。

通常，从头设计蛋白质通过逆转「序列 - 结构 - 功能」范式来实现：首先指定所需功能，然后设计能够执行该功能的结构，最后找到能够折叠成该结构的序列。

综述第五章介绍了 pLMs 的一些生物医学应用，包括抗体设计、酶设计和药物发现；第六章从数据稀缺、蛋白质相互作用建模、可解释性、计算与实验研究的结合、计算效率几个方面讨论了当前挑战和未来潜在研究方向。

感兴趣的读者可以阅读综述原文，了解更多研究内容。

量化617,462种人类微蛋白必需性，北大LLM蛋白质综合预测与分析，登Nature子刊

编辑 | 萝卜皮人类必需蛋白（HEP）对于个体的生存和发育必不可少。然而，鉴定 HEP 的实验方法通常成本高昂、耗时费力。此外，现有的计算方法仅在细胞系水平上预测 HEP，但 HEP 在活体人类、细胞系和动物模型中有所不同。

12/9/2024 11:55:00 AM

ScienceAI

清华大学AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1

编辑 | ScienceAI2025 年初，DeepSeek给全球引发了 AI 大模型的新一轮热议。多家市场咨询公司指出，在 DeepSeek 的影响下，从大模型供应商到基础设施和平台供应商的整个 AI 产业生态都掀起了一波「新浪潮」。 DeepSeek R1 以其强大的推理能力，为各行各业带来了智能化升级新机遇。

2/21/2025 4:03:00 PM

ScienceAI

AI揭示微生物暗蛋白：使用机器学习来发现微生物蛋白质宇宙中的功能性「暗物质」

编辑 | 白菜叶宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物蛋白质序列。其中，11.7 亿种蛋白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物蛋白质的功能是一项艰巨的任务。幸运的是，机器学习最近在复杂生物数据建模和预测方面取得了前所未有的准确性。这些进步的最前沿是基于机器学习的方法，可以自信地预测许多（但不是全部）氨基酸序列的原子级蛋白质结构。最近的一项研究使用 ESMFold 预测器，该预测器利用大型语言模型，从欧洲生物信息学研究所的 MGnify 宏基因组数据库快

12/11/2023 11:31:00 AM

ScienceAI

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

LLM时代，计算蛋白质科学进展如何？香港理工大学等发布系统性综述

相关资讯

量化617,462种人类微蛋白必需性，北大LLM蛋白质综合预测与分析，登Nature子刊

清华大学AIR联合水木分子开源DeepSeek版多模态生物医药大模型BioMedGPT-R1

AI揭示微生物暗蛋白：使用机器学习来发现微生物蛋白质宇宙中的功能性「暗物质」