降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

编辑 | 萝卜皮酶动力学参数的预测对于设计和优化各种生物技术和工业应用的酶至关重要,但当前预测工具在各种任务上的有限性能阻碍了它们的实际应用。中国科学院的研究人员开发了 UniKP,一个基于预训练语言模型的统一框架,用于预测酶动力学参数,包括来自蛋白质序列和底物结构的酶周转数 (kcat)、米氏常数 (Km) 和催化效率 (kcat / Km)。还提出了源自 UniKP (EF-UniKP) 的两层框架,从而允许在考虑环境因素(包括 pH 值和温度)时进行稳健的 kcat 预测。并且,该团队系统地探索了四种有代表性

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

编辑 | 萝卜皮

酶动力学参数的预测对于设计和优化各种生物技术和工业应用的酶至关重要,但当前预测工具在各种任务上的有限性能阻碍了它们的实际应用。

中国科学院的研究人员开发了 UniKP,一个基于预训练语言模型的统一框架,用于预测酶动力学参数,包括来自蛋白质序列和底物结构的酶周转数 (kcat)、米氏常数 (Km) 和催化效率 (kcat / Km)。

还提出了源自 UniKP (EF-UniKP) 的两层框架,从而允许在考虑环境因素(包括 pH 值和温度)时进行稳健的 kcat 预测。并且,该团队系统地探索了四种有代表性的重新加权方法,成功降低了高价值预测任务中的预测误差。

该研究以「UniKP: a unified framework for the prediction of enzyme kinetic parameters」为题,于 2023 年 12 月 11 日发布在《Nature Communications》。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

酶对特定底物的催化效率的研究是一个基本的生物学问题,对酶进化、代谢工程和合成生物学产生深远的影响。kcat 和 Km 的体外测量值、最大周转率和米氏常数是酶催化特定反应效率的指标,可用于比较不同酶的相对催化活性。

目前,酶动力学参数的测量主要依靠实验测量,耗时、成本高、劳动强度大,导致实验测量的动力学参数值数据库很小。例如,序列数据库 UniProt 包含超过 2.3 亿条酶序列,而酶数据库 BRENDA 和 SABIO-RK 包含数万个实验测量的 kcat 值。Uniprot 标识符在这些酶数据库中的集成促进了测量参数和蛋白质序列之间的连接。然而,与酶序列的数量相比,这些连接的规模仍然小得多,限制了定向进化和代谢工程等下游应用的进展。

酶动力学参数预测框架

在这里,中国科学院的研究人员提出了一种基于预训练语言模型的酶动力学参数预测框架(UniKP),它提高了根据给定酶序列和底物结构预测三个酶动力学参数 kcat、Km 和 kcat / Km 的准确性。研究人员对 16 种不同的机器学习模型和 2 种深度学习模型进行了全面比较。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

图示:UniKP 概述。(来源:论文)

与之前最先进的模型 DLKcat 相比,UniKP 在 kcat 预测任务中表现出了卓越的性能,平均决定系数为 0.68,提高了 20%。研究人员推测,预训练模型通过使用整个数据库中的无监督信息创建易于学习的酶序列和底物结构表示,对 UniKP 的性能做出了巨大贡献。

对模型学习的分析表明,蛋白质信息具有主导作用,这可能是由于酶结构与底物结构相比的复杂性。此外,UniKP 可以有效捕获酶及其突变体之间 kcat 值的微小差异,包括实验测量的情况,这对于酶的设计和修饰至关重要。UniKP 预测值的 R^2 与 gmean 方法的 R^2 的高同一性区域和低同一性区域之间的差异证明了 UniKP 在提取更深层次的互连信息方面的能力,从而在这些任务中表现出更高的预测准确性。

两层框架 EF-UniKP

当前的大部分模型没有考虑环境因素,这是模拟真实实验条件的一个关键限制。为了解决这个问题,研究人员提出了一个两层框架 EF-UniKP,它考虑了环境因素。基于分别具有 pH 和温度信息的两个新构建的数据集,EF-UniKP 与初始 UniKP 相比显示出改进的性能。这是一个准确、高通量、独立于生物体且依赖于环境的 kcat 预测。此外,这种方法有可能扩展到包括其他因素,例如共底物和 NaCl 浓度。

降低预测误差,中国科学院团队开发用于预测酶动力学参数的统一框架

图示:考虑环境因素的两层框架。(来源:论文)

然而,由于缺乏综合数据,现有模型并未考虑这些因素之间的相互作用。随着实验技术的进步,包括生物铸造实验室自动化和持续进化方法,研究人员预计酶动力学数据将激增。这种涌入不仅丰富了该领域,而且提高了预测模型的准确性。

由于 kcat 数据集的高度不平衡,导致高 kcat 值预测存在较高误差,该团队系统地探索了四种有代表性的重新加权方法来缓解这一问题。结果表明,每种方法的超参数设置对于改进高 kcat 值预测至关重要。

该团队证实了当前框架在米氏常数(Km)预测和 kcat / Km 预测方面的强通用性。UniKP 在预测 Km 值方面实现了最先进的性能,更令人印象深刻的是,在预测 kcat / Km 值方面优于当前最先进模型的综合结果。此外,研究人员基于实验测量的 kcat / Km 值以及使用 kcat / Km 数据集上的 kcat 和 Km 预测模型计算的 kcat / Km 值验证了 UniKP 框架。

值得注意的是,从 UniKP kcat / UniKP Km 得出的值与实验 kcat / Km 之间观察到的相关性相对较低(PCC = −0.01)。这种差异可能是由于构建各自模型时使用的不同数据集造成的,因此需要开发一个不同的模型来预测 kcat / Km 值。将来,随着包含 kcat 和 Km 值的统一数据集的出现,预计 kcat 和 Km 模型的计算输出将与 kcat / Km 专用模型生成的输出紧密一致。

在酶的挖掘和进化中具体应用

UniKP 在酪氨酸氨裂解酶 (TAL) 酶挖掘和定向进化中的应用,证明了其彻底改变合成生物学和生物化学研究的潜力。这项研究表明,UniKP 有效识别了高活性 TAL,并迅速提高了现有 TAL 的催化效率,RgTAL-489T 的 kcat / Km 值比野生型酶高出 3.5 倍。

此外,在考虑环境因素时,衍生框架 EF-UniKP 始终能够以极高的精度识别高活性 TAL 酶,来自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。结果显示,5条序列的 kcat 和 kcat / Km 值均超过野生型酶。

通过加速酶的发现和优化过程,UniKP 有望成为推进生物催化、药物发现、代谢工程和其他依赖酶催化过程的领域的强大工具。

局限与展望

然而,当前版本的 UniKP 仍然存在一些限制。例如,虽然 UniKP 能够区分实验测量的酶及其变体的 kcat 值,但预测的 kcat 值不够准确。这可能是由于与已知蛋白质序列和底物结构的数量相比数据集不足。

虽然重新加权方法可以在一定程度上缓解由不平衡的 kcat 数据集引起的预测偏差(约 6.5% 的改进),但通过合成少数过采样技术和其他样本合成方法可以实现更显著的改进。

合成生物学的一个中心目标是开发数字细胞,它将彻底改变科学家研究生物学的方法。这项研究的一个关键先决条件是仔细确定途径内所有酶的酶参数。人工智能辅助的工具阐明了这一挑战,提供了一种预测酶动力学的高通量方法。

虽然与早期模型相比,UniKP 预测因子的误差减少了,但不准确仍然是构建精确代谢模型的重大障碍。纳入越来越多的实验确定的 kcat 和 Km 值可以提高模型的准确性。

接下来,研究人员打算结合最先进的算法,例如迁移学习、强化学习和其他小样本学习算法来有效处理不平衡数据集。并且,该团队的目标是探索更多应用,包括酶进化和生物体的全局分析。

论文链接:https://www.nature.com/articles/s41467-023-44113-1

相关资讯

AAAI 2021论文:Graph Diffusion Network提升交通流量预测精度(附论文下载)

城市流量预测作为智能交通中的一个重要问题,致力于精确预测城市中不同区域的流量信息,从而更好地实现区域间的流量管控、拥塞控制以及保障城市公共安全。本文将介绍一种基于时空图扩散网络的城市交通流量预测模型。本文工作是由京东数科硅谷研发实验室,京东城市和华南理工大学合作的一篇论文《Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network》,目前该论文已经被人工智能领域的顶级会议AAAI 2021(CCF A类)接收。

综述:药物发现中的机器学习

编辑 | 萝卜皮不知不觉,人工智能已经渐渐延伸到了各个领域,医药领域也不例外。来自印度 B V Raju 理工学院的研究人员发表综述,讨论了药物发现中的机器学习,归纳总结了应用于制药领域的各类机器学习技术,并指出当前该领域发展的难点,以及未来发展方向。该综述以「Machine Learning in Drug Discovery: A Review」为题,于 2021 年 8 月 11 日发布在《Artificial Intelligence Review》杂志。人工智能概念与许多领域密切相关,如模式识别、概率论、

量子力学与机器学习相结合,预测高温下的化学反应

编辑/凯霞在高温下从氧化物中提取金属不仅对于钢铁等金属的生产至关重要,而且对回收利用也必不可少。但当前的提取过程是碳密集型的,会排放大量温室气体。研究人员一直在探索开发「更绿色」的工艺方法。第一性原理理论的自下而上的计算过程设计,将是一个有吸引力的替代方案,但迄今为止尚未实现。来自哥伦比亚大学的研究团队开发了一种新的计算技术,将量子力学和机器学习相结合,可准确预测金属氧化物对其「贱金属」的还原温度。该方法在计算上与常规计算一样有效,并且在测试中,比使用量子化学方法对温度效应的计算要求高的模拟更准确。该研究以「Aug