AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:来自测试集的靶标上的 Boltz-1 的示例预测。 (来源:论文)编辑 | 萝卜皮2024 年 11 月 18 日,麻省理工学院(MIT)的研究人员宣布推出 Boltz-1,这是一个开源模型,旨在准确模拟复杂的生物分子相互作用。 Boltz-1 是第一个完全商业化的开源模型,在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:来自测试集的靶标上的 Boltz-1 的示例预测。(来源:论文)

编辑 | 萝卜皮

2024 年 11 月 18 日,麻省理工学院(MIT)的研究人员宣布推出 Boltz-1,这是一个开源模型,旨在准确模拟复杂的生物分子相互作用。

Boltz-1 是第一个完全商业化的开源模型,在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。

该研究的作者之一,MIT 的 Ph.D Gabriele Corso,第一时间在推特上分享了这一开源事件,网友们纷纷表示祝贺。

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:网友们对此纷纷表示祝贺。(来源:X)

通过根据 MIT 许可发布训练和推理代码、模型权重和训练数据,该团队旨在将 Boltz-1 打造为全球研究人员的建模主干,为开源结构生物学树立新标准。

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

技术报告:https://gcorso.github.io/assets/boltz1.pdf

开源代码:https://github.com/jwohlwend/boltz

生物分子相互作用驱动着几乎所有的生物机制,科学家理解这些相互作用后可以指导新疗法的开发和疾病驱动因素的发现。

2020 年,AlphaFold2 证明深度学习模型可以在大量蛋白质序列上达到单链蛋白质结构预测的实验精度。然而,关于在 3D 空间中对生物分子复合物进行建模的一个关键问题仍然悬而未决。

过去几年,研究界在解决这一关键问题方面取得了重大进展。特别是,深度生成模型的使用已被证明可以有效地模拟不同生物分子之间的相互作用,其中 DiffDock 比传统的分子对接方法有显著的改进,AlphaFold3 在预测任意生物分子复合物方面达到了前所未有的准确度。

在最新的研究中,MIT 的研究人开发了 Boltz-1,这是第一个完全可商业访问的开源模型,达到了 AlphaFold3 报告的准确度水平。

通过在 MIT 许可下免费提供训练和推理代码、模型权重、数据集和基准,该团队希望让世界各地的研究人员、开发人员和组织能够使用 Boltz-1 进行实验、验证和创新。

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:Boltz-1 架构图。(来源:论文)

从高层次上讲,Boltz-1 遵循 Abramson 团队提出的通用框架和架构,但它也提出了一些创新,包括:

1、新算法可以更高效、更稳健地配对 MSA、训练时的裁剪结构以及用户定义的绑定口袋上的条件预测;

2、更改架构中的表示流程以及扩散训练和推理程序;

3、修订置信度模型,包括架构组件以及任务框架,作为对模型主干层的微调。

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:使用 Kapsch 插值来二维表示 AlphaFold3 反向扩散和 Boltz1 反向扩散之间的差异。(来源:论文)

表现

研究人员在各种数据集上评估了 Boltz-1 与 Chai-1(AlphaFold3 的第一个闭源但公开可用的复制品)的性能,并得出结论:Boltz-1 与 Chai-1 的性能相匹配,因此也与 AlphaFold3 相匹配。

例如,在 CASP15 上进行评估时,Boltz-1 表现出特别强的蛋白质-配体和蛋白质-蛋白质性能,LDDT-PLI 达到 65%,而 Chai-1 为 40%,DockQ>0.23 的比例为 83%,而 Chai-1 为 76%。

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:Chai-1 和 Boltz-1 在 CASP15 基准和测试集上的表现的视觉摘要。(来源:论文)

局限性

虽然性能强悍,但也存在一些局限性。对 Boltz-1 的几个预测进行目视检查后,发现模型输出中存在幻觉现象。最突出的幻觉类型是将整个链直接叠放在一起。

这些现象表现出两种常见模式:第一种涉及大型复合物中的相同聚合物链,而第二种涉及具有共同子结构的类似配体。

研究人员提出了几种假设来解释这些模式:

1、数据中的重叠链和配体:虽然数据处理流程移除了重叠的聚合物链,但并没有消除重叠的配体。经过仔细检查,研究人员发现 PDB 数据库中的几个示例报告了同一结构内的重叠配体,可能代表替代的结合分子或反应(例如,PDB ID 7X9K)。训练集中的此类结构可能会引入误导性的学习信号。

2、训练裁剪大小不足:由于计算限制,研究人员使用 384 和 512 个标记的裁剪大小来训练模型,这比观察到这些问题的许多复杂结构要小得多。这可能会妨碍模型在训练期间捕捉足够的空间背景的能力。

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

图示:Boltz-1 预测链的示例相互重叠。(来源:论文)

希望成为人人可用的模型

接下来,研究人员将进一步探索替代训练或微调策略以缓解这些问题,并将其留到模型的未来迭代中。

此次开源发布旨在让世界各地的研究人员和组织能够利用 Boltz-1 进行实验和创新。研究人员设想将 Boltz-1 作为一个基础,研究人员可以在此基础上进行构建,共同推进科学家对生物分子相互作用的集体理解,并加速药物设计、结构生物学等领域的发现。

研究人员在报告中表示:「Boltz-1 的开源发布是向前迈出的激动人心的一步,但这才刚刚开始。我们正在进行重大改进,以增强其对复杂交互进行建模的能力,我们计划在未来几个月内发布这些改进!敬请期待!」

相关内容:

https://x.com/GabriCorso/status/1858180097016250815

https://jclinic.mit.edu/boltz-1/ 

https://www.marktechpost.com/2024/11/17/mit-researchers-propose-boltz-1-the-first-open-source-ai-model-achieving-alphafold3-level-accuracy-in-biomolecular-structure-prediction/

给TA打赏
共{{data.count}}人
人已打赏
理论

蛋白预测从数月缩短至数小时,MassiveFold出于AlphaFold而胜于AlphaFold3

2024-11-18 14:58:00

理论

面向代码语言模型的安全性研究全新进展,南大&NTU联合发布全面综述

2024-11-19 12:37:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索