AI赋能传统力场:字节跳动开发高精度通用小分子力场ByteFF

编辑 | ScienceAI小分子力场是药物发现中的重要工具,在计算机辅助药物设计中发挥关键作用。 化学空间覆盖广泛且高效精确的小分子力场将为药物发现奠定可靠的基础。 尽管基于机器学习的 MLFF(如 ANI-2x,MACE-OFF23 等)能够提供非常精确的小分子势能面预测,但它们的训练需要海量数据量,且推理速度较慢,还存在外推场景不确定度大等问题。

图片

编辑 | ScienceAI

小分子力场是药物发现中的重要工具,在计算机辅助药物设计中发挥关键作用。化学空间覆盖广泛且高效精确的小分子力场将为药物发现奠定可靠的基础。

尽管基于机器学习的 MLFF(如 ANI-2x,MACE-OFF23 等)能够提供非常精确的小分子势能面预测,但它们的训练需要海量数据量,且推理速度较慢,还存在外推场景不确定度大等问题。这些问题限制了它们在药物发现场景的应用。

以 Espaloma 为代表的一系列工作,在保留传统力场势函数形式的基础上,使用 GNN 预测传统力场参数,一定程度上平衡了力场的精度与效率,为传统力场的发展开创了新的道路。

在此基础上,字节跳动的研究人员设计了符合物理约束的模型结构,构建了覆盖广阔化学空间的量化数据集,使用配套的训练方案,开发了 ByteFF 力场。测试结果表明,ByteFF 在结构优化,分子势能面预测等多项指标上都达到了 SOTA 水平。

相关研究以「Data-Driven Parametrization of Molecular Mechanics Force Fields for Expansive Chemical Space Coverage」为题,发表在《Chemical Science》上。

图片

论文链接:https://pubs.rsc.org/en/content/articlehtml/2025/sc/d4sc06640e

研究背景

小分子力场是药物发现中的重要工具,在虚拟筛选,分子对接以及自由能预测等计算方法中发挥关键作用。

随着计算机辅助药物设计(AIDD)和有机合成技术的发展,药物发现中探索的化学空间范围不断扩大,迫切需求在广阔化学空间内都能够提供高精度预测的小分子力场。

近年来,量子化学和机器学习(ML)技术的发展,给上世纪发展起来的小分子力场提供了新的机遇。备受关注的机器学习力场(MLFF)尽管能够提供高精度的预测,但由于 ML 模型的复杂性,存在训练数据需求量大,推理速度慢等问题。因此很难构建一个计算效率高,且能覆盖广阔化学空间的 MLFF。

2022 年,Espaloma 力场提出了一种平衡精度和效率的方法。他们维持了传统力场的势函数形式,同时抛弃传统的查表赋参方法,使用图神经网络(GNN)预测传统力场参数。数据驱动的参数化方法能够最大限度提升传统力场的精度,同时维持了计算效率。

在此基础上,提高力场的精度与化学空间覆盖,不仅是简单的数据量放大,还需要与之匹配的模型结构和训练策略设计。

模型结构与训练策略

ByteFF 模型结构由 Featurization, GNN, Output 三层组成。

在 Featurization 层中,将每个原子和化学键的化学特征提取为向量表示。GNN 层中,使用 EGT 结构进行信息传递,充分利用原子和键的特征,获得每个原子和键的化学环境表示。Output 层中,根据结构的化学环境预测力场参数。

通过模型结构设计,ByteFF 保证了参数预测结果符合诸多物理限制,比如相同化学环境的结构有相同的结构参数预测,原子 partial charge 之和严格等于分子的总电荷等。

在训练方面,研究人员构建了含有 2.4 M 不同分子碎片的 optimization 数据集和旋转 3.2 M 不同二面角的 torsion 数据集。基于该数据集,研究者针对性地设计了 partial Hessian loss,能够 end-to-end 对批量数据进行训练。

由于传统力场形式简单,几乎不可能完美拟合量化势能面,研究者提出在 torsion 数据集上使用迭代「结构优化-训练」的策略,保证 ByteFF 能够在二面角这个关键自由度上提供准确的势能面预测。

此外,研究者们使用预训练、训练、微调等多阶段训练流程,取得了最优的训练效果。

性能评估

结构优化方面,ByteFF 显著优于业界 SOTA(OPLS4+ffbuilder,标记为「OPLS4 cst」)。

图片

ByteFF 能够准确预测小分子包括环内和非环的二面角势能面。

图片

更多结果请参考原文献。

总结与展望

得益于先进的网络结构设计,充足的训练数据和与之匹配的训练流程,ByteFF  在结构优化,分子势能面预测等多个方面取得了卓越的效果。

ByteFF 继承了 GAFF2 的非键参数,虽然保证了与 Amber 力场的适配,但在非键相互作用方面仍存在较大的提升空间,是今后重要的研究方向。

目前 ByteFF 免费 API 测试正在进行中,如有需要请联系论文的通讯作者,并注明单位和用途。欢迎同行们的试用与反馈。

相关资讯

分子特性预测新框架来了!浙大侯廷军团队、匹兹堡大学联合提出跨通道学习,各大基准表现亮眼

编辑 | 萝卜皮可靠的分子特性预测对于各种科学研究和工业应用(例如药物研发)至关重要。 然而,由于数据稀缺,加上物理化学和生物特性与传统分子特征化方案之间的高度非线性因果关系,使得开发稳健的分子机器学习模型变得异常复杂。 匹兹堡大学(University of Pittsburgh)与浙江大学侯廷军团队合作开发了一种多通道预训练框架,可以稳健学习利用化学知识。

AI 驱动科学大爆发!从蛋白质到数学证明,2024 年最值得关注的科技突破

编辑 | ScienceAI2024 年对于 AI for Science 而言,可谓硕果累累:两个诺贝尔奖再度聚焦人工智能与科学的先驱性结合。 其一是诺贝尔化学奖,颁发给了在蛋白质设计与蛋白质结构预测领域做出开创性贡献的 David Baker 博士、John Jumper 博士以及Demis Hassabis 博士;其二是诺贝尔物理学奖,授予了 John J. Hopfield 博士与 Geoffrey Hinton 博士,以表彰他们在人工神经网络及其机学习核心原理方面的奠基性工作。

LLM学习原子「结构语言」,生成未知化合物的晶体结构,登Nature子刊

编辑 | 萝卜皮生成合理的晶体结构通常是预测材料化学成分及其性质的第一步,但当前大多数预测方法计算成本高,制约了创新进程。 通过使用优质生成的候选结构来预测晶体结构,可以突破这一瓶颈。 在最新的研究中,英国雷丁大学(University of Reading)的研究人员介绍了 CrystaLLM,这是一种基于晶体学信息文件 (CIF) 格式的自回归大型语言建模 (LLM) 的多功能晶体结构生成方法。