编辑 | 白菜叶
宏基因组学项目揭示了地球生物圈中超过 80 亿个非冗余微生物蛋白质序列。其中,11.7 亿种蛋白质在超过 100,000 个可用参考基因组中没有可识别的同源物。了解这些微生物蛋白质的功能是一项艰巨的任务。幸运的是,机器学习最近在复杂生物数据建模和预测方面取得了前所未有的准确性。这些进步的最前沿是基于机器学习的方法,可以自信地预测许多(但不是全部)氨基酸序列的原子级蛋白质结构。
最近的一项研究使用 ESMFold 预测器,该预测器利用大型语言模型,从欧洲生物信息学研究所的 MGnify 宏基因组数据库快速生成 6.17 亿个结构。在所有预测中,大约 36% 的预测被认为具有较高的置信度。计算出的结构通过进化尺度建模宏基因组图谱数据库向社区提供。
许多预测的蛋白质来自不可培养或遗传上难以控制的微生物;因此,这种结构可以帮助微生物学家设计有关特定蛋白质分子功能的假设。然而,所得数据集的大小限制了对这些结构进行整体分析的程度。为了克服这一挑战,最近的三项研究使用序列聚类来缩小需要检查的数据范围,以找到新的蛋白质和结构。
论文链接:https://www.science.org/doi/10.1126/science.ade2574
近期,有两项研究分析了 AlphaFold 数据库中 2.15 亿个预先计算的结构。
其中一项工作开发了一种方法称为 Foldseek cluster,它使用超快序列和结构比对器的组合来对序列进行聚类,然后对代表性结构进行聚类。经过质量过滤后,这种方法将 AlphaFold 数据库蛋白质空间减少到 230 万个结构。其中,略多于 700,000 个蛋白质簇 (~30%) 与实验确定的结构不匹配,并且无法使用 Pfam 或 TIGRFAM 注释进行功能注释。然而,在一些情况下,与注释簇的结构相似性,包括利用人类蛋白质来了解细菌蛋白质,使得能够对「黑暗」(即注释不良)簇中的几种细菌蛋白进行功能预测。
论文链接:https://www.nature.com/articles/s41586-023-06510-w
另一项研究使用 UniProt 数据库中的预计算集群来定义一组 600 万个代表性结构。然后使用这些序列构建交互式序列相似性网络,其中根据将给定簇分配给实验表征的蛋白质家族的能力,为节点提供估计的「亮度」分数。对网络「黑暗」区域的更深入分析导致了对细菌毒素-抗毒素系统中起作用的新毒素蛋白家族的识别和随后的实验验证。
论文链接:https://www.nature.com/articles/s41586-023-06622-3
还有一项研究分析了集成微生物基因组和微生物组数据库中存储的宏基因组和元转录组编码的 80 亿条序列。
首先通过删除与 Pfam 相似的蛋白质或参考基因组编码的序列来减少这个大数据集。使用基于图的方法对所得序列进行聚类。鉴定出近 100,000 个蛋白质家族,称为新的宏基因组蛋白质家族。AlphaFold 的使用以及基于结构的新型宏基因组蛋白家族的聚类产生了约 4,000 个独特的预测结构。尽管在序列水平上并不明显,但结构相似性使 62% 的蛋白质结构属于已知家族。
论文链接:https://www.nature.com/articles/s41586-023-06583-7
总之,这些研究鉴定了新的蛋白质家族,并证明了结构相似性在鉴定家族关联中的价值,特别是对于高度分歧的序列。尽管定义未表征蛋白质的结构不一定揭示其功能,但在试图解码微生物基因组中包含的大量功能信息时,与表征蛋白质的结构相似性可以提供宝贵的推论。
相关报道:https://www.nature.com/articles/s41579-023-01002-0
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。
收录于合集 #机器学习
258个
上一篇可直接比较潜在新药的性能,杜克大学团队开发新的药物AI模型