编辑 | 白菜叶
像 AlphaFold 这样的卵白质布局搜寻对象会用 BLAST 取代卵白质序列搜寻吗?德累斯顿工业大学的钻研团队讨论了利用布局搜寻进行远程同源性检测的前景,以及为什么卵白质 BLAST 作为领先的序列搜寻对象应努力纳入布局信息。
BLAST 广泛用于分子生物学中搜寻核苷酸和卵白质序列。BLAST 推出三十年后,布局预计出现了重大突破,出现了 RoseTTAFold 和 AlphaFold 等对象。
因此,主要序列数据库中的每个卵白质序列现在都带有一个 3D 折叠模型。虽然这不会影响(非编码)核苷酸序列,但它引出了一个问题:对 3D 卵白质布局的搜寻是否会取代对卵白质序列的搜寻。Protein BLAST 已经成为过去了吗?
虽然 BLAST 搜寻是功能预计的强大对象,但它的能力是有限的。序列经过处理可以显著降解,但仍然会折叠成执行相同或相似功能的类似 3D 布局。
不同的序列,相同的布局
这种卵白质对的例子可以在藻类和细菌的粘附分子中找到,特别是在硅藻粘附卵白 CaTrailin_4 和细菌冰结合卵白 FfIBP 中。该对没有可通过 BLAST 检测到的序列相似性(E 值 0.30,其中 E 值 > 0.001 不被认为是显著的)。
事实上,即使是更精细的鉴于序列的对象(例如 HHblits)也无法建立关系。然而,CaTrailin_4 的预计布局和 FfIBP 的已知布局非常相似,因为两者都采用由 α 螺旋持有的两个单元组成的 β 螺旋折叠 – 冰结合卵白的拓扑特征。
图 1:FfIBP (a)/CaTrailin_4 (b) 和 Rad52 (d)/Redβ (e) 的 E 值较差,约为 0.3。(来源:论文)
这种布局相似性可以通过所谓的模板建模分数(TM-score)来衡量,它结合了 RMSD(均方根偏差)和比对长度作为可解释的分数。大于 0.5 的 TM 分数意味着两个布局可能采用相同的折叠并且在进化上相关。CaTrailin_4 和 FfIBP 的 TM 分数为 0.6(高于 0.5 截止值)。因此,布局比拟可以揭示这种惊人的相似性,而这对于 BLAST 和其他鉴于序列的对象(例如 HHblits)来说仍然难以捉摸。
另一个例子涉及 DNA 重组,这是复制的基本过程,其中单链退火卵白 (SSAP) 发挥着核心作用。二十多年来,RecT/Redβ、ERF 和 RAD52 是否形成三个不同的超家族,或者只是一个超家族,一直受到怀疑和争议性的讨论。前一种观点得到了序列分析的支持,序列分析显示 RecT/Redβ、ERF 和 RAD52 之间没有明显的相似性。事实上,Rad52 和 Redβ 没有通过 BLAST 检测到的相似性(E 值 0.38)。
考虑布局会改变情况。Al-Fatlawi 团队将 RecT/Redβ、ERF 和 RAD52 的代表性布局并列在一起,结果表明,尽管缺乏序列相似性,但这些布局包含一个核心布局元件。它是寡聚反应的核心,因为它分别生成环和螺旋布局。因此,它在 RecT/Redβ、ERF 和 RAD52 中非常保守,并且可以通过布局相似性(TM 得分为 0.5)检测到,尽管缺乏任何序列相似性(见图 1 d-f)。
布局预计来拯救
这些例子表明 AlphaFold 或许能够介入 BLAST 无法发现显著相似性的领域。因此,问题出现了:如何系统地实现这一目标?为此,出现了 Foldseek、DALI 和 3D-AF-Surfer 等对象,它们分别利用自动编码器、距离矩阵对齐和专用指纹来扫描和比拟布局。
虽然这些对象已经存在,但它们仍然需要更加广泛和简单,以便同序列数据库上的 BLAST 搜寻竞争。需要协同作用将它们集成到经典的 BLAST 序列搜寻中。最近,一项钻研比拟了倒数最佳 BLAST 掷中和倒数最佳布局掷中,并通过对序列的机器学习嵌入进行最近邻搜寻,在这个方向上迈出了第一步。
为了探索这种先进对象的潜力,钻研职员想要了解同一超家族的成员资格标准如何与序列和布局相似性联系起来。因此,科学家曾从 SCOPe 数据库中获得了 11,211 个具有超家族的域。这些形成 62,278,380 个布局域对,其中 225,931 个 (0.36%) 属于同一超家族,因此可以被视为同源物。
这些同源对中有多少可以分别通过序列和布局直接找到?在 E 值截止值为 0.001 时,BLAST 从 225,931 对中恢复了 16,300 对 (7%)。将界限放宽至 1,该数字增加至 25,634(11%)。但即使 E 值 < 10,也不会超过 15%。如果考虑更敏感的鉴于序列的方法(例如隐马尔可夫模型),这些数字会大大改善。事实上,HHblits 在最佳条件下能够检索到 175,682 对(78%),这甚至比通过布局比拟(TM-score > 0.5)找到的 164,468 对(73%)要好。
然而,那 62,052,449 对不属于同一超家族的呢?在这些对中,E 值小于 0.001、1 和 10 的对分别有 0 个、9,053 个和 72,329 个。HHblits 在这 25% 中进行识别,而布局对齐的错误检测被限制在 2% 以下。HHblits 的 AUC 为 77%,布局比拟为 95%,而 Blast 为 44%。较高的 AUC 分数表明,与其他超家族中的卵白质相比,分类器能够更有效地为正确超家族中的卵白质正确分配更高的分数。
尽管布局比拟的 95% AUC 可能令人鼓舞,但高质量布局的可用性可能是一个限制。据估计,30% 的真核卵白质含有 50 个或更多连续氨基酸的无序区域,这在 3D 布局预计中预计质量较差。这些区域适合利用 BLAST 进行序列搜寻,但不适合直接布局搜寻。
为了评估如此大的百分比如何扩展到整个 AlphaFold 数据库,钻研职员计算了所有 AlphaFold 布局的平均置信度得分。钻研职员发现 80% 的 AlphaFold 布局的 pLDDT 置信度得分为 70% 或更高,这意味着它们可以通过总体良好的主干预计进行良好建模。这意味着存在大量质量合适的布局数据。
BLAST,未来之事
BLAST 完美地满足了生物医学钻研职员的许多需求,例如检测变异和密切相关的序列。然而,远程同源性检测的具体问题对于纯序列搜寻来说是困难的。
在这里,布局可以比顺序更进一步。钻研职员通过对数百万对布局域的演示分析来评估序列和布局相似性的这种关系。总而言之,分析表明具有严格 E 值的 BLAST 在寻找同源物方面非常精确,但并不全面。隐马尔可夫模型更敏感,但特异性有限。布局比拟平衡了这两个极端。如果 BLAST 搜寻包含布局数据,它可以扩展具有相似预计布局并且可能是候选同源物的掷中数,而不会损害结果的质量。
如何将布局数据集成到序列搜寻中尚不清楚,但一种似乎可行的方法是不直接利用布局数据,而是通过所谓的嵌入间接利用,它们是由神经网络生成的中间序列表示,构成神经网络布局预计的基础。
然而,鉴于嵌入和布局数据的同源检测只有以易于利用的方式提供并被社区广泛采用,才会有助于改变分子生物学。NCBI、EBI 和 Riken 等著名机构现在应该努力采用 FoldSeek 中实现的快速布局搜寻,或利用嵌入来扩展经典的鉴于 BLAST 的卵白质序列搜寻,以便 Protein BLAST 继续成为未来的趋势。
论文链接:https://www.nature.com/articles/s41467-023-44082-5