降低预计误差,中国科学院团队开发用于预计酶动力学参数的统一框架

编辑 | 萝卜皮酶动力学参数的预计对于设计和优化各种生物技术和工业使用的酶至关重要，但当前预计工具在各种任务上的有限本能阻碍了它们的实际使用。中国科学院的研讨职员开发了 UniKP，一个基于预训练语言模型的统一框架，用于预计酶动力学参数，包括来自蛋白质序列和底物构造的酶周转数 (kcat)、米氏常数 (Km) 和催化效率 (kcat / Km)。还提出了源自 UniKP (EF-UniKP) 的两层框架，从而允许在思索环境因素（包括 pH 值和温度）时进行稳健的 kcat 预计。并且，该团队系统地探索了四种有代表性

编辑 | 萝卜皮

酶动力学参数的预计对于设计和优化各种生物技术和工业使用的酶至关重要，但当前预计工具在各种任务上的有限本能阻碍了它们的实际使用。

中国科学院的研讨职员开发了 UniKP，一个基于预训练语言模型的统一框架，用于预计酶动力学参数，包括来自蛋白质序列和底物构造的酶周转数 (kcat)、米氏常数 (Km) 和催化效率 (kcat / Km)。

还提出了源自 UniKP (EF-UniKP) 的两层框架，从而允许在思索环境因素（包括 pH 值和温度）时进行稳健的 kcat 预计。并且，该团队系统地探索了四种有代表性的重新加权法子，成功降低了高价值预计任务中的预计误差。

该研讨以「UniKP: a unified framework for the prediction of enzyme kinetic parameters」为题，于 2023 年 12 月 11 日发布在《Nature Communications》。

降低预计误差,中国科学院团队开发用于预计酶动力学参数的统一框架

酶对特定底物的催化效率的研讨是一个基本的生物学问题，对酶退化、代谢工程和分解生物学产生深远的影响。kcat 和 Km 的体外丈量值、最大周转率和米氏常数是酶催化特定反应效率的指标，可用于比较不同酶的相对催化活性。

目前，酶动力学参数的丈量主要依靠实行丈量，耗时、成本高、劳动强度大，导致实行丈量的动力学参数值数据库很小。例如，序列数据库 UniProt 包含超过 2.3 亿条酶序列，而酶数据库 BRENDA 和 SABIO-RK 包含数万个实行丈量的 kcat 值。Uniprot 标识符在这些酶数据库中的集成促进了丈量参数和蛋白质序列之间的连接。然而，与酶序列的数量比拟，这些连接的规模仍然小得多，限制了定向退化和代谢工程等下游使用的进展。

酶动力学参数预计框架

在这里，中国科学院的研讨职员提出了一种基于预训练语言模型的酶动力学参数预计框架（UniKP），它提高了根据给定酶序列和底物构造预计三个酶动力学参数 kcat、Km 和 kcat / Km 的准确性。研讨职员对 16 种不同的机器进修模型和 2 种深度进修模型进行了全面比较。

降低预计误差,中国科学院团队开发用于预计酶动力学参数的统一框架

图示：UniKP 概述。（来源：论文）

与之前最先进的模型 DLKcat 比拟，UniKP 在 kcat 预计任务中表现出了卓越的本能，平均决定系数为 0.68，提高了 20%。研讨职员推测，预训练模型通过使用整个数据库中的无监督信息创建易于进修的酶序列和底物构造表示，对 UniKP 的本能做出了巨大贡献。

对模型进修的分析表明，蛋白质信息具有主导作用，这可能是由于酶构造与底物构造比拟的复杂性。此外，UniKP 可以有效捕获酶及其突变体之间 kcat 值的微小差异，包括实行丈量的情况，这对于酶的设计和修饰至关重要。UniKP 预计值的 R^2 与 gmean 法子的 R^2 的高同一性区域和低同一性区域之间的差异证明了 UniKP 在提取更深层次的互连信息方面的能力，从而在这些任务中表现出更高的预计准确性。

两层框架 EF-UniKP

当前的大部分模型没有思索环境因素，这是模拟真实实行条件的一个关键限制。为了解决这个问题，研讨职员提出了一个两层框架 EF-UniKP，它思索了环境因素。基于分别具有 pH 和温度信息的两个新构建的数据集，EF-UniKP 与初始 UniKP 比拟显示出改进的本能。这是一个准确、高通量、独立于生物体且依赖于环境的 kcat 预计。此外，这种法子有可能扩展到包括其他因素，例如共底物和 NaCl 浓度。

降低预计误差,中国科学院团队开发用于预计酶动力学参数的统一框架

图示：思索环境因素的两层框架。（来源：论文）

然而，由于缺乏综合数据，现有模型并未思索这些因素之间的相互作用。随着实行技术的进步，包括生物铸造实行室自动化和持续退化法子，研讨职员预计酶动力学数据将激增。这种涌入不仅丰富了该领域，而且提高了预计模型的准确性。

由于 kcat 数据集的高度不平衡，导致高 kcat 值预计存在较高误差，该团队系统地探索了四种有代表性的重新加权法子来缓解这一问题。结果表明，每种法子的超参数设置对于改进高 kcat 值预计至关重要。

该团队证实了当前框架在米氏常数（Km）预计和 kcat / Km 预计方面的强通用性。UniKP 在预计 Km 值方面实现了最先进的本能，更令人印象深刻的是，在预计 kcat / Km 值方面优于当前最先进模型的综合结果。此外，研讨职员基于实行丈量的 kcat / Km 值以及使用 kcat / Km 数据集上的 kcat 和 Km 预计模型计算的 kcat / Km 值验证了 UniKP 框架。

值得注意的是，从 UniKP kcat / UniKP Km 得出的值与实行 kcat / Km 之间观察到的相关性相对较低（PCC = −0.01）。这种差异可能是由于构建各自模型时使用的不同数据集造成的，因此需要开发一个不同的模型来预计 kcat / Km 值。将来，随着包含 kcat 和 Km 值的统一数据集的出现，预计 kcat 和 Km 模型的计算输出将与 kcat / Km 专用模型生成的输出紧密一致。

在酶的挖掘和退化中具体使用

UniKP 在酪氨酸氨裂解酶 (TAL) 酶挖掘和定向退化中的使用，证明了其彻底改变分解生物学和生物化学研讨的潜力。这项研讨表明，UniKP 有效识别了高活性 TAL，并迅速提高了现有 TAL 的催化效率，RgTAL-489T 的 kcat / Km 值比野生型酶高出 3.5 倍。

此外，在思索环境因素时，衍生框架 EF-UniKP 始终能够以极高的精度识别高活性 TAL 酶，来自 Tephrocybe rancida 的 TrTAL 的 kcat / Km 值比野生型酶高 2.6 倍。结果显示，5条序列的 kcat 和 kcat / Km 值均超过野生型酶。

通过加速酶的发现和优化过程，UniKP 有望成为推进生物催化、药物发现、代谢工程和其他依赖酶催化过程的领域的强大工具。

局限与展望

然而，当前版本的 UniKP 仍然存在一些限制。例如，虽然 UniKP 能够区分实行丈量的酶及其变体的 kcat 值，但预计的 kcat 值不够准确。这可能是由于与已知蛋白质序列和底物构造的数量比拟数据集不足。

虽然重新加权法子可以在一定程度上缓解由不平衡的 kcat 数据集引起的预计偏差（约 6.5% 的改进），但通过分解少数过采样技术和其他样本分解法子可以实现更显著的改进。

分解生物学的一个中心目标是开发数字细胞，它将彻底改变科学家研讨生物学的法子。这项研讨的一个关键先决条件是仔细确定途径内所有酶的酶参数。人工智能辅助的工具阐明了这一挑战，提供了一种预计酶动力学的高通量法子。

虽然与早期模型比拟，UniKP 预计因子的误差减少了，但不准确仍然是构建精确代谢模型的重大障碍。纳入越来越多的实行确定的 kcat 和 Km 值可以提高模型的准确性。

接下来，研讨职员打算结合最先进的算法，例如迁移进修、强化进修和其他小样本进修算法来有效处理不平衡数据集。并且，该团队的目标是探索更多使用，包括酶退化和生物体的全局分析。

论文链接：https://www.nature.com/articles/s41467-023-44113-1

{{userData.name}}已认证

降低预计误差,中国科学院团队开发用于预计酶动力学参数的统一框架

发觉、分解并表征303个新份子，MIT团队开发机器学习驱动的闭环自决份子发觉平台

以前所未有的精度，猜测超重核的衰变形式和半衰期，中山大学团队开发 AI 新方法

10 倍速度提升，新版 Dream Machineds 可在 20 秒内极速生成高质量 AI 视频

最强文生图 AI 模型 Flux 再进化：出图速度快 6 倍，Elo 评分冲上 1153 傲视群雄

AI 架构 Transformer 再进化：谷歌新方法突破长文本处理，注意力模块内存需求可降至 1/47

最新 AI 生图模型 Flux1.1 隐藏玩法，添加单反相机文件名获得超写实图像

奥特曼赢家通吃！OpenAI再揽66亿美元新融资，还不忘「狙击」一把老同事Ilya

非 Transformer 架构 AI 模型 Liquid 问世，号称性能“凌驾 Meta Llama / 微软 Phi”

快手可灵 AI 新增“对口型”功能：生成人物口型与上传音频同步

OpenAI 联合创始人 Durk Kingma 加盟 Anthropic