编辑 | 萝卜皮
三十亿年的进化已经产生了极其多样化的蛋白质分子,但蛋白质的全部潜力可能要大得多。挖掘这种潜力对于计算和实验来说都是一个挑战,因为可能存在的蛋白质分子的空间,比那些可能具有功能的空间大得多。
美国 Generate Biomedicines 的研究团队介绍了 Chroma,一种蛋白质和蛋白质复合物的生成模型,可以直接对新的蛋白质结构和序列进行采样,并且可以进行调节以引导生成过程实现所需的特性和功能。
为了实现这一点,研究人员引入了一种尊重聚合物整体构象统计的扩散过程,这是一种分子系统的有效神经架构,它能够通过次二次缩放、根据预测的残基间几何形状有效合成蛋白质三维结构的层以及用于扩散模型的通用低温采样算法来进行远程推理。
Chroma 将蛋白质设计实现为外部约束下的贝叶斯推理,其中可能涉及对称性、子结构、形状、语义甚至自然语言提示。310 种蛋白质的实验表征表明,从 Chroma 取样可产生高度表达、折叠并具有良好生物物理特性的蛋白质。两种设计的蛋白质的晶体结构与 Chroma 样品表现出原子一致性(主链均方根偏差约为 1.0 Å)。
通过这种统一的蛋白质设计方法,有望加速蛋白质物质的编程,从而造福人类健康,促进材料科学和合成生物学的发展。
该研究以「Illuminating protein space with a programmable generative model」为题,于 2023 年 11 月 15 日发布在《Nature》。
蛋白质分子执行生命所需的大部分生物功能,但创造它们是一项复杂的任务,需要数十亿年的进化。计算蛋白质设计领域旨在通过以可编程方式自动设计功能蛋白质来缩短这一过程。尽管过去三十年来在实现这一目标方面取得了相当大的进展,包括以前未知的拓扑、组件、粘合剂、催化剂和材料的设计,但大多数从头设计尚未达到自然界中发现的大分子的复杂性和多样性。
其原因包括对序列、结构和功能之间的关系进行建模很困难,并且大多数计算设计方法依赖于迭代搜索和采样过程,就像进化一样,必须逐步适应崎岖的适应环境。尽管已经开发了许多计算技术来加速这种搜索并改进天然蛋白质结构的预测,但可能的蛋白质的空间仍然很大,并且传统计算方法只能部分访问。确定如何有效地探索可设计蛋白质结构的空间仍然是一个开放的挑战。
蛋白质设计的另一种可能有吸引力的方法是直接从与一组所需功能兼容的蛋白质空间中取样。尽管这种方法可以解决迭代搜索方法的基本限制,但它需要一种参数化先验“合理”蛋白质空间的方法,一种从该空间抽取样本的方法,以及一种使采样偏向所需属性和功能的方法。事实证明,深度生成模型可以成功解决其他领域的此类高维建模和推理问题,例如在文本条件生成的真实感图像中。因此,人们在开发蛋白质空间生成模型方面进行了大量工作,并将其应用于蛋白质序列和结构。
尽管蛋白质生成模型最近取得了进展,但 Generate Biomedicines 的研究人员认为,在一个系统中还存在三个特性尚未同时实现。这些是:对序列的联合、全原子似然性和完整蛋白质复合物的三维结构进行建模;通过与蛋白质系统的大小成二次方缩放的计算来实现这一点;并在不同的设计约束下实现条件采样而无需重新训练。
在这里,Generate Biomedicines 的研究团队介绍了 Chroma,一种蛋白质生成模型,它通过使用准线性计算缩放对完整复合物进行建模并允许在生成时进行任意条件采样来实现所有这三个要求。它建立在扩散模型和图神经网络的框架之上,扩散模型通过学习以可逆的方式逐渐将高维分布转换为简单分布来对高维分布进行建模,图神经网络可以有效地处理复杂分子系统中的几何信息。
图:Chroma 是蛋白质和蛋白质复合物的生成模型,它将蛋白质主链的结构化扩散与用于主链合成和全原子设计的可扩展分子神经网络相结合。(来源:论文)
Chroma 是可编程的,它可以对具有多种用户指定属性的蛋白质进行采样,包括残基间距离和接触、结构域、子结构和分类器的语义规范。Chroma 能够生成具有任意和复杂形状的蛋白质,它甚至已经开始展示出接受所需属性描述作为自由文本的能力。其高效设计、创新的扩散过程、准线性缩放神经架构和低温采样方法,意味着 Chroma 可以在几分钟内在商用图形处理单元(例如 NVIDIA V100)上生成极大的蛋白质和蛋白质复合物(残基超过3000个)。
研究人员推断,确定 Chroma 参数化蛋白质空间的合理性的最佳方法,是从模型中抽取独立样本并进行实验测试。这与原型蛋白质设计协议不同,在原型蛋白质设计协议中,使用一组自定义过滤器向下选择初始提案设计,旨在避免已知或假设的模型缺陷,并帮助专注于更有可能在实验中发挥作用的设计。
尽管后一种做法在该领域被广泛采用,可以有效提高设计成功率,但它确实需要为每个设计项目提供一组定制的滤波器,并且使得完全自动化的设计难以实现。此外,这种方法会偏离 Chroma 学到的分布特征的意图。
实验验证表明,Chroma 已经掌握了足够准确的分布,因此从中采样会产生表达、折叠、具有有利的生物物理特性并以不平凡的速率符合预期结构的蛋白质。即使在高度保守的观点下,即只有该团队在溶液中单独纯化和表征的蛋白质才构成成功的设计,Chroma 仍然有 3% 的成功率。
此外,通过实验确定晶体结构的两种设计表明,该分布的重要部分应该是原子精确的。考虑到 Chroma 所学到的结构空间的广度和新颖性,即使是这些对成功率的保守估计也将转化为大量未经探索的可操作蛋白质空间,现在可以通过商品计算硬件访问这些空间。
以能够产生物理上合理且可设计的构象的方式探索蛋白质结构空间的任务一直是蛋白质设计中的长期挑战。在一些蛋白质系统中,可以通过数学方式对主链构象空间进行参数化——最显著的是α-螺旋卷曲线圈和其他一些具有高度对称性的情况——在这些情况下,设计工作受益匪浅,创造了其他系统所不具备的可能性。
但是,对于所有其他结构类型,大量的计算时间都花费在寻找合理的主干上,通常无法关注实际的功能规范。Chroma 有潜力解决这个问题,使人们能够从关注生成可行的结构转向关注手头的特定任务,即蛋白质的用途。通过利用超过 30 亿年进化过程中采集的蛋白质,并寻找组装稳定蛋白质的新方法,Chroma 等生成模型有望推动生物分子多样性的另一次扩展,为人类健康和生物工程带来好处。
论文链接:https://www.nature.com/articles/s41586-023-06728-8
相关报道:
https://phys.org/news/2023-11-reshaping-protein-function-first-ai-guided.html
https://twitter.com/AndrewLBeam/status/1724838193042784399