来自清华大学AIR、北京大学、南京大学的研究团队提出了 ESM-AA 模型。该模型在卵白质说话建模范围取得了重要进展,提供了一套整合多标准信息的统一建模方案。
它是首个能同时处理氨基酸信息和原子信息的卵白质预训练说话模型。模型的出色机能展现了多标准统一建模在克服现有局限和解锁新能力方面的巨大潜力。
作为基座模型,ESM-AA 获得了多位学者的关注与广泛讨论(截图见下方),被认为有潜力基于 ESM-AA 开发出可与 AlphaFold3、RoseTTAFold All-Atom 相竞争的模型,为研究不同生物构造间的相互作用开辟了新的道路。当前论文已被 ICML 2024 录⽤。
研究背景
卵白质是各种生命活动的关键执行者。深入了解卵白质及其与其他生物构造的相互作用是生物科学中的核心议题,这对靶向药物筛选、酶工程等范围具有显著的实际意义。
因此,如何更好地了解与建模卵白质也成为了目前 AI4Science 范围的一个研究热点。
近日来,包括 Deepmind、华盛顿大学 Baker 组在内的各大前沿研究机构也针对卵白质全原子建模问题展开了深入研究,提出了包括 AlphaFold 3、RoseTTAFold All-Atom 等针对卵白质以及其他生命活动相关份子的全原子标准建模模型,可以在很高的精度下实现对卵白质构造、份子构造以及受体-配体构造等全原子标准的精确展望。
虽然这些模型对于全原子标准的构造建模取得了重大进展,目前主流的卵白说话模型仍然无法实现全原子标准的卵白质了解与表示进修。
多标准,下一代卵白质模型的「必经之路」
以 ESM-2为代表的卵白质表示进修模型,它们以氨基酸作为构建模型的唯一标准,这对于专注于处理卵白质的情境而言是一种合理的方法。
然而,要全面了解卵白质的本质,关键在于阐述它们与其他生物构造(如小份子、DNA、RNA 等)之间的相互作用。
面对这种需求,需要描述不同构造间复杂的相互作用,单一标准的建模策略难以提供有效的全面覆盖。
为了克服这一缺陷,卵白质模型正在经历一场向多标准模型转变的深刻革新。例如,5月初发表在《Science》杂志上的 RoseTTAFold All-Atom 模型,作为 RoseTTAFold 的后续产品,引入了多标准概念。
这一模型不仅仅局限于卵白质构造展望,还拓展到了卵白质与份子/核酸的对接、卵白翻译后修饰等更广泛的研究范围。
同时,DeepMind 最新发布的 AlphaFold3 也采用了多标准建模策略,支持展望多种卵白复合物的构造,其表现令人瞩目,无疑将对人工智能和生物学范围产生重大影响。
ESM All-Atom,多标准的卵白质说话模型基座
图 1:ESM-AA 模型的整体架构
RoseTTAFold All-Atom 和 AlphaFold3 对多标准概念的成功应用启发了一个重要思考,即:作为卵白质基座模型的卵白说话模型应如何采纳多标准技术。基于此,该团队提出了多标准卵白质说话模型 ESM All-Atom(ESM-AA)。
简要来说,ESM-AA 通过将部分氨基酸「展开」(Unzip)为对应的原子组成引入了多标准概念。随后,通过混合卵白数据与份子数据进行预训练,这使得模型具备了同时处理不同标准生物构造的能力。
此外,为了帮助模型更好地进修优质的原子标准信息,ESM-AA 还会利用原子标准的份子构造数据进行训练。而且通过引入图 2 所示的多标准位置编码机制,ESM-AA 模型可以很好地对不同标准的信息进行区分,确保模型能够精确了解残基层面与原子层面的位置与构造信息。
图 2:多标准位置编码
多标准预训练目标
为了帮助模型进修多标准信息,该团队为 ESM-AA 模型设计了多种预训练目标。ESM-AA 的多标准预训练目标包括掩码说话建模(MLM)和成对距离恢复(PDR)。如图 3(a) 所示,MLM 通过遮盖氨基酸和原子,要求模型根据周围的上下文进行展望,这一训练恣意可以在氨基酸和原子两个标准上进行。而 PDR 则要求模型准确展望不同原子之间的欧几里得距离,以训练模型了解原子级的构造信息(如图 3(b) 所示)。
图 3:多标准预训练恣意
实验验证
机能评估
ESM-AA 模型在多种卵白-小份子基准恣意上进行微调和评估,包括酶-底物亲和力回归恣意(结果展现于图 4)、酶-底物对分类恣意(结果展现于图 4)和药物-靶标亲和力回归恣意(结果展现于图 5)。
结果显示,ESM-AA 在这些恣意中优于之前的模型,表明其在氨基酸和原子标准上充分发挥了卵白质预训练说话模型的潜力。
图 4:酶-底物亲和力回归恣意以及酶-底物对分类恣意机能比较
图 5:药物-靶标亲和力回归恣意机能比较
此外,ESM-AA 模型也在卵白质接触展望、卵白功能分类以及份子性质展望等恣意上测试了机能。
结果显示,在处理仅涉及卵白质的恣意时,ESM-AA 的表现与 ESM-2 相当;在份子恣意上,ESM-AA 模型的机能优于大多数基准模型,与 Uni-Mol 的表现相近。
这表明,ESM-AA 在获取强大份子知识的过程中并未牺牲对卵白质的了解能力,也进一步说明了 ESM-AA 模型成功复用了 ESM-2 模型的知识,而无需被从头开始重新开发,显著降低了模型训练成本。
可视化分析
为了进一步分析 ESM-AA 在卵白-小份子基准恣意上表现优异的原因,该论文展现了 ESM-AA 模型以及 ESM-2+Uni-Mol 模型组合在该恣意中抽取的样本表征分布的可视化结果。
如图 6 所示,ESM-AA 模型所进修的卵白和小份子表示之间更为紧凑,这预示着两者处于同一表示空间,这是 ESM-AA 模型优于 ESM-2+Uni-Mol 模型的原因,进一步说明了多标准统一份子建模的优势。
图 6:卵白/份子表示的可视化分析
结语
清华 AIR 团队开发的 ESM-AA 是首个融合氨基酸与原子信息处理的卵白质预训练说话模型。模型通过整合多标准信息,展现出稳健且卓越的机能,为解决生物构造间相互作用难题提供了新途径。
ESM-AA不仅促进了对卵白质更深层次的了解,还在多项生物份子恣意中表现出色,证明了其在保持卵白质了解能力的同时可以有效融合份子层面知识,降低了模型训练的成本,为 AI 辅助的生物科学研究开辟了新方向。
论文标题:ESM All-Atom: Multi-Scale Protein Language Model for Unified Molecular Modeling
Github开源地址:https://github.com/zhengkangjie/ESM-AA
论文链接:https://arxiv.org/abs/2403.12995