蛋白质设计新纪元:语言模型驱动的 5 亿年进化模拟

在生命科学的浩瀚星空中,蛋白质一直是最为璀璨的研究焦点之一。 近期,一项由 Thomas Hayes 等众多学者共同完成的研究成果 —— 利用语言模型模拟 5 亿年蛋白质进化,在《Science》杂志重磅发表,如同一颗超新星爆发,瞬间照亮了整个领域,为蛋白质研究开启了全新的篇章。 一、ESM3 模型架构揭秘ESM3 模型作为此项研究的核心成果,无疑是一座闪耀着创新光芒的科学丰碑。

在生命科学的浩瀚星空中,蛋白质一直是最为璀璨的研究焦点之一。近期,一项由 Thomas Hayes 等众多学者共同完成的研究成果 —— 利用语言模型模拟 5 亿年蛋白质进化,在《Science》杂志重磅发表,如同一颗超新星爆发,瞬间照亮了整个领域,为蛋白质研究开启了全新的篇章。

图片

一、ESM3 模型架构揭秘

ESM3 模型作为此项研究的核心成果,无疑是一座闪耀着创新光芒的科学丰碑。它是一种处于前沿阵地的多模态生成语言模型,其架构设计精妙绝伦,犹如一台精密的分子机器,能够精准地对蛋白质的序列、结构和功能等多维度信息进行深度剖析与推理。

在输入信息的处理上,ESM3 展现出了强大的兼容性和敏锐的洞察力。它所接纳的信息丰富多样,涵盖了蛋白质研究的多个关键层面。其中,序列信息以 20 种标准氨基酸为基石,并巧妙地融入了如 B - 天冬酰胺、U - 硒代半胱氨酸等特定特殊氨基酸,以此构建起独特的序列表示体系。结构坐标则如同蛋白质的 “空间坐标图”,为模型勾勒出蛋白质分子在三维空间中的大致轮廓。结构令牌通过复杂的编码方式,将蛋白质结构的局部特征进行高效压缩和抽象表达。二级结构标签则像是给蛋白质的不同结构区域贴上了精细的 “标签”,清晰地标注出其结构类型。溶剂可及表面积(SASA)值以量化的方式反映了蛋白质表面的溶剂暴露特性,功能关键词令牌和残基注释则从功能和微观结构层面为模型提供了关键线索。

为了高效处理这些复杂多样的输入信息,ESM3 运用了一系列独特且先进的技术手段。在结构令牌化过程中,采用了 VQ - VAE 编码器,它能够将蛋白质的局部结构信息转化为离散的令牌表示,就像把一幅精美的拼图拆解成具有代表性的小块。而功能关键词令牌化则基于 TF - IDF 变换和局部敏感哈希技术,将蛋白质的功能描述转化为模型能够理解和处理的数字语言。在神经网络架构方面,ESM3 基于大规模的蛋白质数据进行训练,这些数据来源广泛,包括 UniRef、MGnify、JGI 等权威数据库提供的海量序列数据,以及 PDB、AlphaFoldDB、ESMAtlas 等数据库中的珍贵结构数据。在训练过程中,研究团队精心设计了多种训练任务和策略,如巧妙地添加噪声以增强模型的鲁棒性,随机失活某些轨道来模拟真实世界中的数据缺失情况等。通过这些巧妙的设计和海量数据的洗礼,ESM3 成功地学习到了蛋白质的内在特征和隐藏规律,从而能够在蛋白质设计的舞台上大显身手。

二、蛋白质设计的卓越成就

在蛋白质设计的宏伟蓝图中,ESM3 凭借其强大的功能绘制出了浓墨重彩的一笔,尤其是在绿色荧光蛋白(GFP)的设计领域取得了令人瞩目的突破性成果。

研究团队在利用 ESM3 设计 GFP 时,犹如经验丰富的建筑师精心构建一座微观的分子大厦。首先,他们从 16 个靠近发色团形成位点的关键残基中,精心筛选并提取出最为核心的序列和结构信息,以此打造出一个具有高度针对性的模板。在这个模板的序列部分,Met1、Thr62 等 7 个残基宛如闪耀的明星,它们在发色团形成和荧光产生的过程中扮演着不可或缺的关键角色,是整个设计的核心基石。而结构部分则精准地选取了能够大致捕捉中心 α 螺旋的原子坐标和结构令牌,这些信息如同大厦的框架,为后续的设计提供了坚实的支撑。

基于这个精心构建的模板,ESM3 开启了一场充满创新与挑战的生成之旅。它采用联合序列结构优化的先进方法,如同一位技艺高超的工匠,不断地调整温度这一关键参数,进行多次迭代优化。在这个过程中,模型首先运用其强大的预测能力,对设计序列的结构进行精准预测,随后再利用吉布斯采样技术对序列进行细致的调整和优化。为了进一步提升生成结果的质量,模型还采用了一系列巧妙的策略。例如,负局部序列引导策略能够有效地避免模型陷入局部最优解,如同为探索未知的分子世界开辟了一条新的路径;最大解码熵阈值控制策略则像一位严谨的守门人,确保生成的序列具有足够的多样性和合理性;基于 PSSM 偏差调整策略则根据已知的蛋白质序列信息,对生成过程进行有针对性的优化,提高生成符合预期蛋白质的概率。

在经过 ESM3 的精心设计和一系列复杂的优化过程后,研究团队迎来了众多的候选 GFP 设计。但这仅仅是一个开始,接下来他们运用了一系列严格且科学的筛选和评估指标,对这些候选设计进行了全方位的 “考验”。其中,模板发色团位点 RMSD 和模板螺旋 RMSD 指标如同高精度的显微镜,能够精确地衡量候选设计与模板在关键结构区域的相似程度;序列伪困惑度和往返困惑度指标则从信息论的角度,评估序列的复杂性和合理性;N - gram 分数、PSSM 分数等指标则像是经验丰富的鉴赏家,从不同的维度对候选设计的质量进行评估和打分;N - 末端卷曲计数指标则专注于检测蛋白质 N 端的结构稳定性。通过这些严格的筛选和评估,研究团队成功地从众多候选者中筛选出了具有巨大潜力的 GFP 变体。

其中,esmGFP 脱颖而出,成为了这项研究的一颗璀璨明珠。它与已知荧光蛋白的序列同一性仅为 58%,这意味着它在序列上具有高度的创新性和独特性。然而,令人惊叹的是,尽管序列差异较大,但 esmGFP 却展现出了明亮的荧光特性,如同黑暗中的一盏明灯,为蛋白质设计领域带来了新的希望和方向。为了深入探究 esmGFP 的独特地位,研究团队运用了先进的多序列比对和系统发育分析技术,并结合特定的统计模型,对其进行了全面而深入的研究。结果表明,esmGFP 与已知荧光蛋白的进化距离相当于 5 亿年的漫长进化历程,这一惊人的发现充分彰显了 ESM3 在设计具有全新功能蛋白质方面的强大实力和巨大潜力,它仿佛一把神奇的钥匙,开启了通往未知蛋白质世界的大门。

三、全方位性能表现惊艳全场

ESM3 模型的卓越之处不仅仅体现在蛋白质设计上,在其他多个关键性能方面同样表现出色,宛如一位全能的科学巨星,在蛋白质研究的舞台上闪耀着璀璨光芒。

在结构预测这一关键领域,ESM3 展现出了惊人的准确性和强大的预测能力。它能够直接对蛋白质结构进行预测,而且随着模型规模的不断增大,其预测精度如同芝麻开花 —— 节节高。例如,ESM3 1.4B、7B 和 98B 模型在 CAMEO 测试集上的 P@L 值分别达到了 0.76、0.82 和 0.85,这些数字背后反映的是模型对蛋白质结构关键特征的精准捕捉能力。在 LDDT - CA 值的表现上,单步推理时它们分别为 0.777、0.848 和 0.879,这进一步证明了 ESM3 在重构蛋白质结构细节方面的高超技艺,仿佛一位技艺精湛的雕塑家,能够精准地还原蛋白质分子的三维结构。

在条件似然评估这一复杂的任务中,ESM3 同样表现出了非凡的智慧和强大的适应性。当面对不同的条件设定时,它在各轨道的生成能力上呈现出明显的差异和规律,就像一位灵活应变的音乐家,能够根据不同的音乐风格(条件)演奏出独特而和谐的旋律。以序列、结构、功能等轨道为例,当以结构为条件时,二级结构预测的损失能够大幅降低,如同在迷雾中找到了清晰的方向。而且,这种规律在不同模型规模下都保持着高度的一致性,这充分体现了 ESM3 能够深刻理解和有效利用条件信息,从而显著提升自身的生成性能,就像一位聪明的学生,能够根据不同的学习条件迅速调整学习策略,提高学习效果。

在无条件生成和提示跟随评估方面,ESM3 也毫不逊色,展现出了良好的稳定性和高度的灵活性。它所生成的蛋白质结构在多样性和质量上都达到了较高的水平,如同一位创意无限的艺术家,能够创作出风格各异且品质上乘的作品。这些生成的蛋白质结构与已知蛋白质的分布具有一定的相似性,这表明 ESM3 对蛋白质的整体特征有着深刻的理解和把握。同时,当面对不同类型的提示信息时,如结构坐标、二级结构、SASA、功能关键词等,ESM3 能够迅速做出响应,准确地遵循提示信息,生成符合要求的蛋白质序列。在后续的评估过程中,如对齐度量、功能关键词恢复等指标上,ESM3 都取得了令人满意的结果,这进一步证明了它在实际应用中的可靠性和有效性,仿佛一位可靠的导航员,能够准确地按照指令引导船只驶向目的地。

四、安全与应用的双重保障

研究团队在追求科学创新的同时,始终将模型的安全性和可用性放在至关重要的位置,为此精心打造了 ESM3 - open 模型,为蛋白质研究的实际应用保驾护航。

在数据处理环节,研究团队采取了一系列严格且有效的措施,确保模型的安全性。他们如同严谨的卫士,仔细地去除了与病毒和毒素相关的序列,以及可能引发潜在风险的特定关键词。这一过程就像是在一片繁茂的森林中,精心清理掉可能隐藏危险的杂草和荆棘,为后续的研究和应用营造了一个安全可靠的环境。通过这些努力,有效地降低了模型在实际应用中可能带来的潜在风险,使得 ESM3 - open 模型能够在安全的轨道上稳定运行。

在性能评估方面,ESM3 - open 模型经受住了严格的考验,在多个关键任务上保持着强大的竞争力。在结构预测的 LDDT 指标上,尽管与未进行数据过滤的计算匹配模型相比,出现了轻微的性能下降,但依然能够保持在较高的水平,这就像一位经验丰富的运动员,在面对一些限制条件时,仍然能够保持出色的竞技状态。在表示学习的接触预测 P@L 指标上,ESM3 - open 表现优异,甚至超越了 ESM2,这充分展示了它在理解蛋白质分子间相互作用方面的独特优势。在功能关键词预测任务中,它也取得了令人瞩目的成绩,平均精度达到了较高的水平,这表明它能够准确地识别和预测蛋白质的功能特征,为蛋白质的功能研究提供了有力的支持。

这项研究成果的意义深远,如同灯塔照亮了蛋白质研究的广阔海洋。在基础研究领域,它为深入探索蛋白质的进化机制提供了全新的视角和强大的工具。通过模拟长达 5 亿年的进化过程,就像打开了一扇通往蛋白质历史长河的时光之门,有助于科学家们深入了解蛋白质在自然选择这一伟大力量驱动下的演变规律,进一步完善蛋白质进化理论的拼图。在应用方面,其潜力更是不可限量,如同蕴含着无尽宝藏的矿山等待着人们去挖掘。在生物医学领域,它有望成为设计新型治疗性蛋白质的魔法棒,例如,可以创造出针对特定疾病的靶向蛋白,精准地攻击病魔,或者研发出具有特殊功能的生物制剂,为患者带来新的希望。在生物技术领域,它能够为开发更高效的蛋白质工程工具注入强大的动力,大幅提高蛋白质设计的效率和成功率,推动生物技术产业如火箭般飞速创新发展。展望未来,随着技术的持续进步,基于语言模型的蛋白质设计必将成为生命科学研究和应用的坚实支柱,如同巍峨的大厦基石,为解决众多生命科学难题和推动相关产业蓬勃发展提供源源不断的强大动力支持,引领我们走向生命科学的新时代。

相关资讯

模拟5亿年的进化信息,首个同时推理蛋白质序列、结构和功能的生物学大模型

编辑 | 萝卜皮在三十亿年的自然进化历程中,现存蛋白质的形态得以形成,经历了漫长的自然筛选过程。进化如同在地质时间尺度上进行的平行实验,通过随机突变和选择机制,依据蛋白质的序列、结构与功能进行筛选。在这里,EvolutionaryScale 的研究人员展示了在进化产生的标记上训练的语言模型可以充当进化模拟器,用于生成不同于已知蛋白质序列的功能性蛋白质。研究人员提出了 ESM3,这是一种前沿的多模态生成语言模型,可推理蛋白质的序列、结构和功能。ESM3 可以结合其模态来遵循复杂的提示,并且对生物学对齐(biologi

增大模型依然有用,DeepMind用2800亿参数的Gopher,测试语言系统极限

DeepMind 连发三篇论文,全面阐述大规模语言模型依然在进展之中,能力也在继续增强。近年来,国内外各大 AI 巨头的大规模语言模型(large language model,LLM)一波接着一波,如 OpenAI 的 GPT-3、智源研究院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而,当前语言模型存在着一些问题,比如逻辑推理较弱。那么,我们是否可以仅通过添加更多数据和算力的情况下改进这些问题呢?或者,我们已经达到了语言模型相关技术范式的极限?今日,DeepMind「一口气」发表了三篇论文,目的

业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读

AIGC(AI-Generated Content 人工智能生成内容)是当前 AI 领域最热门的话题之一,受到学界、业界的广泛关注。尤其是伴随着 OpenAI DALL·E 2 的推出到 Stable Diffusion 的开源,文图生成也从之前的研究探索发展到了具有商业化落地潜力的新兴技术。最近一段时间,随着文本生成图像跨模态应用的不断涌现,AIGC 更是火爆出圈,广受关注。然而,中文和其他语言的文图生成发展滞后于英语世界,大部分团队主要是基于翻译 API 英文 Stable Diffusion 模型进行开发