AI在线 AI在线

预测精度达93%,个人电脑可部署,科学家开发Transformer新方法预测结合蛋白

作者:ScienceAI
2025-04-02 02:06
编辑丨&结合蛋白通过与特定分子(如 DNA、RNA 或肽)选择性相互作用来调节各种细胞过程,它们能以高特异性识别和结合靶分子,这使得它们在信号传导、转运和酶活性功能上有着至关重要的地位。 当前,用于鉴定蛋白质结合肽的传统方法效率低下且性价比极低,而基于序列的方法因过于狭隘地关注近端序列特征而忽略了结构数据,导致没有一种良好的方式进行结合蛋白预测。 阿富汗呼罗珊大学(Khurasan University)领导了一项研究,推出一款名为 Deep-ProBind 的强大预测模型,旨在通过整合序列和结构信息对蛋白质结合位点进行分类。

图片

编辑丨&

结合蛋白通过与特定分子(如 DNA、RNA 或肽)选择性相互作用来调节各种细胞过程,它们能以高特异性识别和结合靶分子,这使得它们在信号传导、转运和酶活性功能上有着至关重要的地位。

当前,用于鉴定蛋白质结合肽的传统方法效率低下且性价比极低,而基于序列的方法因过于狭隘地关注近端序列特征而忽略了结构数据,导致没有一种良好的方式进行结合蛋白预测。

阿富汗呼罗珊大学(Khurasan University)领导了一项研究,推出一款名为 Deep-ProBind 的强大预测模型,旨在通过整合序列和结构信息对蛋白质结合位点进行分类。

该模型基准数据集上实现了 10 倍交叉验证的准确率达到 92.67%,在独立样本上实现了 93.62% 的准确率,训练数据方面相较于现有模型分别高出 3.57% 与 1.52%。

他们的研究以《Deep-ProBind: binding protein prediction with transformer-based deep learning model》为题,于 2025 年 3 月 22 日刊登于《BMC Bioinformatics》。

图片

框架模型

本研究主要致力于解决蛋白质结合位点预测中的两个关键挑战:需要可靠的大规模肽结合蛋白数据集和开发新的深度学习模型。新模型使用基于 Transformer 的注意力机制对肽进行编码,并通过 PsePSSM-DWT 方法生成进化信息特征。

通过深度神经网络(DNN)执行分类,模型能够学习数据中的复杂模式,成为研究人员的强大工具,为肽结合位点预测提供了一种可靠的方法。

图片

图 1:所提出模型的框架。(图源:论文)

经过实验,团队创建了一个平衡的数据集,在测试中使用了不平等的数据,即 200 个阳性样本和 800 个阴性样本以反映真实的数据情况。

为了保证正确的特征,团队实现了特征编码方案,采用位置特异性评分矩阵(PSSM)、PsePSSM、离散小波变换 (DWT)与 Transformer 的双向编码器表示(BERT)进行构建。

图片

图 2:使用词嵌入的 ProtBERT-BFD 模型。(图源:论文)

具体来说,研究中使用 ProtBERT-BFD,它将基于蛋白质的 BERT 嵌入与 Big Fantastic Database(BFD)相结合,以增强特征表示。使用全局平均池化将标记化序列转换为 1024 维特征向量,然后将这些特征输入到深度学习模型进行预测。

深度架构

DNN 是 ML 的一个子分类,其灵感来自人脑的结构和功能。DNN 架构包括一个输入层、几个隐藏层和一个介于两者之间的输出层。

隐藏层对于网络了解数据中无法在原始数据中检测到的特征和模式至关重要,虽然其数量增加了映射复杂模式的预测能力,但也变相增加了难度、计算成本和过度拟合的出现。

使用基准数据集,DNN 模型用于识别蛋白质结合肽。所提出的 DNN 模型包括输入、输出和四个隐藏层,通过使用反向传播算法迭代更改权重,减少输出类和目标类之间的误差,从而改进所提出的模型学习技术。

图片

图 3:建议的 DNN 模型配置。(图源:论文)

性能分析

实验被架设在第六代英特尔酷睿 i7 处理器上,加入了 Tensorflow 和 Keras 来构建深度神经网络,以及 Pandas 和 Matplotlib 来做大量的数据分析、清理和整理数据以运行机器学习模型。

当使用 Tanh 作为激活函数和学习率 0.1 时,DNN 分类器在基准数据集上实现了最高的准确性,为 92.67%。该团队表示,关于学习率值,DNN 模型达到了最大准确率。

随着训练 epoch 的增加,错误率持续降低。例如,DNN 模型在初始 epoch 开始时的误差损失为 0.879,到第 50 个 epoch 时稳步下降到 0.001。

图片

图 4:DNN 模型的性能。(图源:论文)

除此之外,团队还使用 AUC 指标进一步检查了 Deep-ProBind 的性能,AUC 指标是二进制分类器准确性的关键指标,分数越高代表性能更好。

Deep-ProBind 提供了出色的结果,在训练数据集上实现了 0.941 的 AUC,独立数据集上达到了 0.948 的 AUC。综合来说,DNN 模型的性能优于 SVM 算法和其他传统 ML。

模型总结

Deep-ProBind 令人鼓舞的结果突显了其在寻找功能性肽方面的研究潜力、它们在疾病中的相关性,尤其是在应激反应和乳腺癌中,以及它们在制定治疗方法中的应用。

研究的目标是采用并行编程方法来解决可扩展性和效率问题,通过超参数优化和采用集成技术来完善模型架构,确保更快、更节省资源的处理。

当前研究的一个关键局限性是依赖于相对较小的数据集,这可能会限制模型的泛化性。研究的最终目标是通过在未来的迭代中整合更广泛和多样化的数据集来克服这一限制。

论文链接:https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-025-06101-8

相关标签:

相关资讯

只需一行代码,即可轻松驱散基因组分析中DNN产生的数字噪音

编辑 | 白菜叶人工智能已经进入我们的日常生活。它可以是 ChatGPT,也可以是人工智能生成的比萨饼和啤酒广告。虽然我们不能相信人工智能是完美的,但事实证明,有些时候我们根本无法相信人工智能。冷泉港实验室(CSHL)西蒙斯定量生物学中心的助理教授 Peter Koo 发现,在分析 DNA 时,使用流行的计算工具来解释 AI 预测的科学家会收集到太多的「噪音」或额外信息。他找到了解决这个问题的方法。他的团队确定了一个以前被忽视的归因噪声源,该噪声源源于深度神经网络(DNN)如何处理单热编码 DNA。研究人员证明这种
6/9/2023 1:30:00 PM
ScienceAI

NeurIPS 2023 | 「解释一切」图像概念解释器来了,港科大团队出品

Segment Anything Model(SAM)首次被应用到了基于增强概念的可解释 AI 上。你是否好奇当一个黑盒深度神经网络 (DNN) 预测下图的时候,图中哪个部分对于输出预测为「击球手」的帮助最大?香港科技大学团队最新的 NeurIPS2023 研究成果给出了他们的答案。论文:: Meta 的分割一切 (SAM) 后,港科大团队首次借助 SAM 实现了人类可解读的任意 DNN 模型图像概念解释器:Explain Any Concept (EAC)。你往往会看到传统的 DNN 图像概念解释器会给出这样的解
10/25/2023 11:38:00 AM
机器之心

终于把神经网络中的知识蒸馏搞懂了!!!

大家好,我是小寒今天给大家分享神经网络中的一个关键知识点,知识蒸馏知识蒸馏是一种模型压缩方法,用于将大型神经网络(教师模型)中的知识转移到较小的神经网络(学生模型)中。 这一技术能够在保持或接近原始模型性能的情况下,显著减小模型的体积,从而提升推理效率。 知识蒸馏在很多场景中非常有用,尤其是在计算资源有限或需要部署到边缘设备的应用中。
12/2/2024 1:10:04 AM
程序员小寒