编辑 | 萝卜皮
三十亿年的退化已经产生了极其多样化的蛋白质份子,但蛋白质的全部潜力可能要大得多。挖掘这种潜力对于较量争论和实行来说都是一个挑战,因为可能存在的蛋白质份子的空间,比那些可能具有功效的空间大得多。
美国 Generate Biomedicines 的研究团队介绍了 Chroma,一种蛋白质和蛋白质复合物的生成模型,可以直接对新的蛋白质构造和序列从事采样,并且可以从事调节以引导生成进程实行所需的特征和功效。
为了实行这一点,研究人员引入了一种尊重聚合物整体构象统计的分散进程,这是一种份子零碎的无效神经架构,它能够通过次二次缩放、根据预测的残基间几何形状无效合成蛋白质三维构造的层以及用于分散模型的通用低温采样算法来从事远程推理。
Chroma 将蛋白质设想实行为外部约束下的贝叶斯推理,其中可能涉及对称性、子构造、形状、语义甚至自然语言提示。310 种蛋白质的实行表征表明,从 Chroma 取样可产生高度表达、折叠并具有良好生物物理特征的蛋白质。两种设想的蛋白质的晶体构造与 Chroma 样品表现出原子一致性(主链均方根偏差约为 1.0 Å)。
通过这种统一的蛋白质设想步骤,有望加速蛋白质物质的编程,从而造福人类健康,促进材料科学和合成生物学的发展。
该研究以「Illuminating protein space with a programmable generative model」为题,于 2023 年 11 月 15 日发布在《Nature》。
蛋白质份子执行生命所需的大部分生物功效,但创造它们是一项复杂的任务,需要数十亿年的退化。较量争论蛋白质设想领域旨在通过以可编程方式自动设想功效蛋白质来缩短这一进程。尽管过去三十年来在实行这一目标方面取得了相当大的进展,包括以前未知的拓扑、组件、粘合剂、催化剂和材料的设想,但大多数从头设想尚未达到自然界中发现的大份子的复杂性和多样性。
其原因包括对序列、构造和功效之间的关系从事建模很困难,并且大多数较量争论设想步骤依赖于迭代搜索和采样进程,就像退化一样,必须逐步适应崎岖的适应环境。尽管已经开发了许多较量争论技术来加速这种搜索并改进天然蛋白质构造的预测,但可能的蛋白质的空间仍然很大,并且传统较量争论步骤只能部分访问。确定如何无效地探索可设想蛋白质构造的空间仍然是一个开放的挑战。
蛋白质设想的另一种可能有吸引力的步骤是直接从与一组所需功效兼容的蛋白质空间中取样。尽管这种步骤可以解决迭代搜索步骤的基本限制,但它需要一种参数化先验“合理”蛋白质空间的步骤,一种从该空间抽取样本的步骤,以及一种使采样偏向所需属性和功效的步骤。事实证明,深度生成模型可以成功解决其他领域的此类高维建模和推理问题,例如在文本条件生成的真实感图像中。因此,人们在开发蛋白质空间生成模型方面从事了大量工作,并将其应用于蛋白质序列和构造。
尽管蛋白质生成模型最近取得了进展,但 Generate Biomedicines 的研究人员认为,在一个零碎中还存在三个特征尚未同时实行。这些是:对序列的联合、全原子似然性和完整蛋白质复合物的三维构造从事建模;通过与蛋白质零碎的大小成二次方缩放的较量争论来实行这一点;并在不同的设想约束下实行条件采样而无需重新训练。
在这里,Generate Biomedicines 的研究团队介绍了 Chroma,一种蛋白质生成模型,它通过使用准线性较量争论缩放对完整复合物从事建模并允许在生成时从事任意条件采样来实行所有这三个要求。它建立在分散模型和图神经网络的框架之上,分散模型通过学习以可逆的方式逐渐将高维散布转换为简单散布来对高维散布从事建模,图神经网络可以无效地处理复杂份子零碎中的几何信息。
图:Chroma 是蛋白质和蛋白质复合物的生成模型,它将蛋白质主链的构造化分散与用于主链合成和全原子设想的可扩展份子神经网络相结合。(来源:论文)
Chroma 是可编程的,它可以对具有多种用户指定属性的蛋白质从事采样,包括残基间距离和接触、构造域、子构造和分类器的语义规范。Chroma 能够生成具有任意和复杂形状的蛋白质,它甚至已经开始展示出接受所需属性描述作为自由文本的能力。其高效设想、创新的分散进程、准线性缩放神经架构和低温采样步骤,意味着 Chroma 可以在几分钟内在商用图形处理单元(例如 NVIDIA V100)上生成极大的蛋白质和蛋白质复合物(残基超过3000个)。
研究人员推断,确定 Chroma 参数化蛋白质空间的合理性的最佳步骤,是从模型中抽取独立样本并从事实行测试。这与原型蛋白质设想协议不同,在原型蛋白质设想协议中,使用一组自定义过滤器向下选择初始提案设想,旨在避免已知或假设的模型缺陷,并帮助专注于更有可能在实行中发挥作用的设想。
尽管后一种做法在该领域被广泛采用,可以无效提高设想成功率,但它确实需要为每个设想项目提供一组定制的滤波器,并且使得完全自动化的设想难以实行。此外,这种步骤会偏离 Chroma 学到的散布特征的意图。
实行验证表明,Chroma 已经掌握了足够准确的散布,因此从中采样会产生表达、折叠、具有有利的生物物理特征并以不平凡的速率符合预期构造的蛋白质。即使在高度保守的观点下,即只有该团队在溶液中单独纯化和表征的蛋白质才构成成功的设想,Chroma 仍然有 3% 的成功率。
此外,通过实行确定晶体构造的两种设想表明,该散布的重要部分应该是原子精确的。考虑到 Chroma 所学到的构造空间的广度和新颖性,即使是这些对成功率的保守估计也将转化为大量未经探索的可操作蛋白质空间,现在可以通过商品较量争论硬件访问这些空间。
以能够产生物理上合理且可设想的构象的方式探索蛋白质构造空间的任务一直是蛋白质设想中的长期挑战。在一些蛋白质零碎中,可以通过数学方式对主链构象空间从事参数化——最显著的是α-螺旋卷曲线圈和其他一些具有高度对称性的情况——在这些情况下,设想工作受益匪浅,创造了其他零碎所不具备的可能性。
但是,对于所有其他构造类型,大量的较量争论时间都花费在寻找合理的主干上,通常无法关注实际的功效规范。Chroma 有潜力解决这个问题,使人们能够从关注生成可行的构造转向关注手头的特定任务,即蛋白质的用途。通过利用超过 30 亿年退化进程中采集的蛋白质,并寻找组装稳定蛋白质的新步骤,Chroma 等生成模型有望推动生物份子多样性的另一次扩展,为人类健康和生物工程带来好处。
论文链接:https://www.nature.com/articles/s41586-023-06728-8
相关报道:
https://phys.org/news/2023-11-reshaping-protein-function-first-ai-guided.html
https://twitter.com/AndrewLBeam/status/1724838193042784399