全球首创 :份子之心开源新AI算法,攻克卵白质侧链展望与序列计划难题

PSCP 深度架构 AttnPacker——大幅优化的AI算法。

卵白质构造和功能的形成,很大程度上取决于侧链原子间的相互作用,因此,精准的卵白质侧链展望(PSCP)是解决卵白质构造展望和卵白质计划难题的关键一环。但此前卵白质构造展望大多聚焦于主链构造,侧链构造展望始终是一个未被完全解决的难题。

近日,份子之心许锦波团队推出一种新的 PSCP 深度架构 AttnPacker,在速度、内存效用和整体精度方面取得大幅提升,是目前已知的最优侧链构造展望算法,也是全球首创的可同时进行卵白质侧链展望和序列计划的 AI 算法。

论文发表在《美国科学院院刊》(PNAS)上,其预训练模型、源代码和推理脚本都已在 Github 上开源。

全球首创 :份子之心开源新AI算法,攻克卵白质侧链展望与序列计划难题

论文链接:https://www.pnas.org/doi/10.1073/pnas.2216438120#supplementary-materials

开源链接:https://github.com/MattMcPartlon/AttnPacker

背景

卵白质由数个氨基酸折叠而成,其构造分为主链和侧链。侧链的差异性对卵白质的构造与功能有巨大影响,尤其是生物活性。鉴于对侧链构造的清晰认知,科学家们能够更精准地测定卵白质三维构造,解析卵白质 – 卵白质之间的相互作用,并进行理性卵白计划。应用到药物计划领域,科学家们便能更快、更准确地找到适合药物与受体的结合点位,甚至根据需要优化或计划结合点位;在酶优化领域,科学家们可以通过对序列的优化改造,让多个侧链参与催化反应,实现更高效、特异性更高的催化成效。

当前大多数卵白质构造展望算法主要针对主链的构造解析,但卵白质侧链构造展望还是一个未被完全突破的难题。无论是 AlphaFold2 等热门卵白质构造展望算法,还是 DLPacker、RosettaPacker 等专注侧链构造展望的算法,准确度或速度都不尽如人意。这也为卵白质计划带来了限制。

传统办法,如 RosettaPacker,主要使用能量优化办法,先对侧链原子的分布进行分组,再针对某个特定氨基酸来搜索侧链的分组,寻找能量最小的组合。这些办法主要区别于研究者对旋转异构体文库、能量函数和能量最小化程序的选择,准确性受限于对搜索启发式办法和离散抽样程序的使用。业界也有鉴于深度进修的侧链展望办法,如 DLPacker,它将 PSCP 表述为图像到图像的转换问题,并采用了 U-net 模型构造。但展望精度和速度依然不够理想。

办法

AttnPacker 是一种端到端的展望卵白质侧链坐标的深度进修办法。它联合模拟了侧链相互作用,直接展望的侧链构造在物理上更可行,具有更少的原子碰撞和更理想的键长和角度。

具体而言,AttnPacker 引入了一种利用 PSCP 的几何和关系方面的深度图转换器架构。受 AlphaFold2 启发,份子之心提出了位置感知三角形更新,以使用鉴于图形的框架来计算三角形注意力和乘法更新,从而优化成对特征。通过这种办法,AttnPacker 的内存昭著减少并拥有更高容量的模型。此外,份子之心探索了几种 SE (3) 等变注意力机制,并提出了一种用于从 3D 点进修的等变变换器架构。

全球首创 :份子之心开源新AI算法,攻克卵白质侧链展望与序列计划难题

AttnPacker 运行流程。以卵白质主链坐标和序列作为输入,并鉴于坐标信息导出空间特征图和等变基。特征图由不变量 graph-transformer 模块处理,然后传递给一个等变的 TFN-Transformer 输出展望的侧链坐标、每个残基的置信度分数和可选的计划序列。展望坐标经过后处理,以去除所有空间冲突,并确保理想化的几何构造。

成效

在展望成效上,AttnPacker 对自然和非自然主链构造都显示出准确性和效用上的改进。同时保证了物理上的可行性,与理想键长和角度的偏差可以忽略不计,且产生了最小的原子空间位阻。

份子之心在 CASP13 和 CASP14 自然和非自然卵白质主链数据集上对 AttnPacker 与目前最先进的办法 ——SCWRL4、FASPR、RosettaPacker 和 DLPacker 进行对比测试。结果显示,AttnPacker 在 CASP13 和 CASP14 自然主链上昭著优于传统卵白质侧链展望办法,平均重建 RMSD 比每个测试集上的次优办法低 18% 以上。AttnPacker 还超越了深度进修办法 DLPacker,平均 RMSD 降低了 11% 以上,同时也昭著提高了侧链二面角精度。除了准确性,AttnPacker 的原子碰撞明显少于其他办法。

全球首创 :份子之心开源新AI算法,攻克卵白质侧链展望与序列计划难题

给出自然主链构造时,各算法在 CASP13 和 CASP14 目标卵白上的侧链构造展望结果。星号表示平均冲突值低于自然构造 ——CASP13 为 56.0、5.9 和 0.4,CASP14 为 80.4、7.9 和 2.5。

在 CASP13 和 CASP14 非自然主链上,AttnPacker 也明显优于其他办法,原子碰撞也明显少于其他办法。

全球首创 :份子之心开源新AI算法,攻克卵白质侧链展望与序列计划难题

给出非自然主链构造时,各算法在 CASP13 和 CASP14 目标卵白上的侧链构造展望结果。星号表示平均冲突值低于相应自然构造 ——CASP13 的 34.6、2.2、0.5 和 CASP14 的 40.0、2.7、0.7。

创新性地摈弃了离散的旋转异构体库以及计算上昂贵的构象搜索和采样步骤,直接结合主链 3D 几何构造来并行计算所有侧链坐标。AttnPacker 与鉴于深度进修的办法 DLPacker、鉴于传统计算办法的 RosettaPacker 相比,计算效用昭著提高,减少了 100 倍以上的推理时间。

全球首创 :份子之心开源新AI算法,攻克卵白质侧链展望与序列计划难题

不同 PSCP 办法的时间比较。重建所有 83 个 CASP13 目标卵白的侧链原子的相对时间。

AttnPacker 在卵白质计划上的表现同样优秀。份子之心训练了一个 AttnPacker 变体用以协同计划,该变体可实现媲美当下最先进的办法的自然序列恢复率,同时还可生产高度精确的组装。Rosetta 模拟验证显示,AttnPacker 计划的构造通常会产生亚原生(更低的)Rosetta 能量。

全球首创 :份子之心开源新AI算法,攻克卵白质侧链展望与序列计划难题

用 ESMFold scTM 和 plDDT 指标对比自然卵白质序列和 AttnPacker 生成的序列,以评估 AttnPacker 的生成质量,结果表现出强相关性。

除了成效和效用惊人之外,AttnPaker 还有一个非常实用的价值 —— 它非常易用。AttnPaker 只需要一个卵白质的构造文件即可运行。相比之下,OPUS-Rota4 (28) 需要来自 DLPacker 的原子环境的体素表示、来自 trRosetta100 的逻辑、二级构造和来自 OPUS-CM 输出的约束文件。另外,由于 AttnPacker 直接展望侧链坐标,输出是完全可微分的,这有利于下游展望任务,例如优化或卵白质 – 卵白质相互作用。“展望成效好、效用高、易用,这些优势有利于 AttnPacker 在研究和工业领域的广泛使用。” 许锦波教授表示。

总结

1、AttnPacker 是一个用于直接展望序列和侧链坐标的 SE(3)等变模型,可以用于卵白质侧链构造展望,也可用于卵白质序列计划,是一项开创性的工作。

2、AttnPacker 的准确性优于其他办法,且效用大幅提升,并具备极高的易用性。

给TA打赏
共{{data.count}}人
人已打赏
AI

陈天奇官宣新APP,让手机原生跑大模型,利用商店直接下载使用

2023-6-5 15:06:00

AI

无需标注海量数据,指标检测新范式OVD让多模态AGI又前进一步

2023-6-5 15:24:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索