AI在线 AI在线

仅输入prompt与序列,准确率超90%,UC伯克利等提出文本生成蛋白质多模态框架

作者:ScienceAI
2025-04-03 02:37
编辑丨coisini机器学习在蛋白质发现领域展现出深远的潜力,相关工具已快速应用于科学流程的辅助与加速。 当前,AI 辅助的蛋白质设计主要利用蛋白质的序列和结构信息,而为了描述蛋白质的高级功能,人们以文本形式整理了海量知识,这种文本数据能否助力蛋白质设计任务尚未得到探索。 为了填补这一空白,来自加州大学伯克利分校(UC Berkeley)、加州理工学院(California Institute of Technology)等机构的研究者提出了一个利用文本描述进行蛋白质设计的多模态框架 ——ProteinDT。

图片

编辑丨coisini

机器学习在蛋白质发现领域展现出深远的潜力,相关工具已快速应用于科学流程的辅助与加速。当前,AI 辅助的蛋白质设计主要利用蛋白质的序列和结构信息,而为了描述蛋白质的高级功能,人们以文本形式整理了海量知识,这种文本数据能否助力蛋白质设计任务尚未得到探索。

为了填补这一空白,来自加州大学伯克利分校(UC Berkeley)、加州理工学院(California Institute of Technology)等机构的研究者提出了一个利用文本描述进行蛋白质设计的多模态框架 ——ProteinDT。该框架包含三个连续步骤:对齐两种模态表征的 ProteinCLAP、从文本模态生成蛋白质表征的 Facilitator,以及根据表征生成蛋白质序列的解码器。

图片

论文地址:https://www.nature.com/articles/s42256-025-01011-z

研究概览

受基础模型突破的启发,计算化学领域已证明结合药物文本描述与化学结构信息的多模态机制能有效促进小分子药物发现,这为蛋白质领域如何运用多模态机制推动蛋白质工程与生成提出了新命题。

为解答这一问题,研究团队开创了利用文本描述进行蛋白质设计的新范式。

具体而言,该研究致力于挖掘蛋白质的两种模态:蛋白质序列与文本描述。蛋白质序列由 20 种氨基酸(又称残基)组成,决定了蛋白质的折叠方式与功能特性;而第二模态则是公开数据源(如 UniProt)记录的文本描述,蕴含丰富的蛋白质知识,包括参与的生物过程、执行的分子功能以及定位的细胞组分。两种模态分别聚焦于表达内部生化组成与领域专家总结的高阶知识,因此探索两者的融合对完成更具挑战性的蛋白质设计任务(如零样本泛化)具有重要意义。

该研究提出了文本驱动的蛋白质设计框架 ProteinDT,其核心流程如下:

(1) 对比性语言 - 蛋白质预训练(ProteinCLAP)步骤,旨在对齐文本序列与蛋白质序列的表征空间。该步骤通过从 UniProt 的 Swiss-Prot 子集提取的 441,000 个文本 - 蛋白质对数据集 SwissProtCLAP,采用对比学习范式实现双模态表征对齐;

(2) ProteinFacilitator 模型从文本模态生成蛋白质序列表征,采用高斯分布估计条件分布;

(3) 用于蛋白质生成的解码器模型是一个条件生成模型,基于上一步产生的表征信息生成蛋白质序列。

图片

实验结果

为了验证 ProteinDT 的多功能特性,研究团队设计了三项下游任务:

文本生成蛋白质任务,通过 ProteinDT 流程根据目标蛋白质特性的文本描述 prompt 生成蛋白质序列,最优检索准确率可超 90%。

图片

图片

零样本文本引导的蛋白质编辑任务,输入为文本 prompt 和蛋白质序列。研究团队提出两种编辑方法:潜在空间插值法在序列级表征空间进行插值;潜在优化法直接优化 token 级表征。两种方法均注入文本模态信息,并将学得的表征用于蛋白质生成。实验显示 ProteinDT 在 12 项编辑任务(涵盖结构感知、稳定性优化及肽段结合编辑等)中均取得最佳命中率,定性分析结果进一步证明了其有效性。

图片

图片

蛋白质属性预测任务,用于评估 ProteinCLAP 学习表征的稳健性与泛化能力。与六种前沿蛋白质序列表征方法相比,ProteinDT 在四项基准测试中表现最优。

图片

感兴趣的读者可以阅读论文原文,了解更多研究内容。

相关资讯

ScienceAl 2024「AI+蛋白&核酸&分子互作」专题年度回顾

编辑 | 萝卜皮2024年,科学界迎来了重要的突破与创新,尤其是在人工智能与结构生物学的结合领域。 正如今年诺贝尔奖颁发所体现的那样,人工智能(AI)技术的迅猛发展正在推动各学科的深度融合,揭示了生命科学研究的新机遇与前景。 在这一年里,AI 与生物学的交汇点愈发引人注目,成为推动现代生物医药、医学研究、生命科学等领域变革的重要力量。
12/23/2024 3:17:00 PM
ScienceAI

量子级精度,静态到动态,微软蛋白MD模拟系统登Nature

编辑 | KX生物世界的本质在于分子及其相互作用的不断变化。 了解生物分子的动力学和相互作用对于破译生物过程背后的机制,以及开发生物材料和药物至关重要。 正如诺贝尔物理学奖得主理查德·费曼(Richard Feynman)的名言:「所有生物体的行为都可以通过原子的颤动和摆动来理解。
11/7/2024 6:53:00 PM
ScienceAI

AlphaFold3开源了,诺奖AI工具人人可用,开启生物分子设计新时代

编辑 | ScienceAIAlphaFold3 终于开源了。 六个月前 AlphaFold3 发布的时候,谷歌 DeepMind 没有公布其论文代码,因此引发了学界的巨大争议。 如今,DeepMind 于 11 月 11 日宣布,科学家现在可以免费下载软件代码,并将 AlphaFold3 用于非商业应用。
11/12/2024 4:36:00 PM
ScienceAI