MIT钻研职员将Transformer与图神经网络结合,用于计划全新蛋白质

编辑 | 萝卜皮凭借其繁杂的排列和动态功能,蛋白质通过采用简单建立块的独特排列(其中几何形状是关键)来执行大量的生物任意。将这个几乎无限的排列库转化为各自的功能,可以方便钻研职员计划用于特定用途的定制蛋白质。麻省理工学院(MIT)的 Markus Buehler 提出了一种天真的鉴于谈话模型的深度学习策略,将 Transformer 与图神经网络结合起来,以更好地理解和计划蛋白质。「通过这种新步骤,我们可以通过对基本原理进行建模,利用大自然发明的一切作为知识基础。」Buehler 说,「该模型重新组合了这些自然建立

MIT钻研职员将Transformer与图神经网络结合,用于计划全新蛋白质

编辑 | 萝卜皮

凭借其繁杂的排列和动态功能,蛋白质通过采用简单建立块的独特排列(其中几何形状是关键)来执行大量的生物任意。将这个几乎无限的排列库转化为各自的功能,可以方便钻研职员计划用于特定用途的定制蛋白质。

麻省理工学院(MIT)的 Markus Buehler 提出了一种天真的鉴于谈话模型的深度学习策略,将 Transformer 与图神经网络结合起来,以更好地理解和计划蛋白质。

「通过这种新步骤,我们可以通过对基本原理进行建模,利用大自然发明的一切作为知识基础。」Buehler 说,「该模型重新组合了这些自然建立块,以实现新功能并办理这些类型的任意。」

该模型用于猜测二级构造含量(每个残基水平和总体含量)、蛋白质溶解度和测序任意。在逆向任意上进一步训练,该模型能够计划具有这些特性作为目标特征的蛋白质。模型被制定为一个通用框架,完全鉴于提示,并且可以适应各种下游任意。

该钻研以「Generative pretrained autoregressive transformer graph neural network applied to the analysis and discovery of novel proteins 」为题,于 2023 年 8 月 29 日发布在《Journal of Applied Physics》。

MIT钻研职员将Transformer与图神经网络结合,用于计划全新蛋白质

多标准建模为分层生物资料的分析和计划提供了强大的基础。特别关注构成众多生物和生物衍生资料基础的蛋白质资料。在该分析领域,运用机器学习和相关步骤的数据驱动建模已成为一种强大的策略,其中包括分析任意(例如从序列猜测属性)和逆向计划任意(计划蛋白质或其他生物资料以满足一组目标特性)。

具体来说,生成生物资料科学是资料发现的新兴前沿,已应用于蛋白质、有机份子、无机物(包括药物计划)、生物活性资料和建筑资料等;最近,由于谈话模型的运用,促进了生物蛋白质资料多标准建模的发展。

MIT钻研职员将Transformer与图神经网络结合,用于计划全新蛋白质

图示:开发了一种深度谈话模型,可以办理正向和逆向蛋白质建模问题。(来源:论文)

麻省理工学院的钻研职员开发了一种天真的鉴于谈话模型的深度学习策略,应用于办理蛋白质建模中的繁杂正向和逆向问题;鉴于注意力神经网络,将 Transformer 和图卷积架构集成到因果多头图机制中,从而实现生成预训练模型 MaterioFormer。该模型能够在端到端序列到特性猜测的范围内分析蛋白质序列,并生成份子蛋白质构造以满足各种目标特性,所有这些都在一个模型中完成。

该团队证明,生成谈话步骤为蛋白质资料的发现和计划提供了一个天真的平台。钻研职员可以轻松地将这些模型整合到广泛的应用程序中并办理多个繁杂的任意。

MIT钻研职员将Transformer与图神经网络结合,用于计划全新蛋白质

图示:MaterioFormer 模型概述,这是一种鉴于文本提示输入建立的自回归变换图卷积模型,适用于各种任意。(来源:论文)

虽然该模型总体上很好地办理了多个任意,但运用一次专注于一项任意的专用模型仍然有一定的优势(例如,序列到属性的猜测或运用扩散模型的生成任意)。例如,在创建满足特定每个残基二级构造的蛋白质序列的计划任意中,MaterioFormer 有时无法准确反映猜测中所需的长度。当从输入蛋白质序列进行二级构造猜测时,会看到类似的情况。 

相比之下,仅针对一项生成任意训练的扩散模型在序列长度方面可以更准确地办理该问题。值得关注的是,已有的从整体二级构造内容生成序列的模型,很难识别新的蛋白质计划,而 MaterioFormer 可以非常好地办理这项任意,具有非常高程度的新颖蛋白质序列计划。

MaterioFormer 模型的一个吸引人的方面是天真的迭代工作流程,可以集成人类智能和人工智能。人们可以输入提示,计划蛋白质,并检查它是否适合计划标准(如果不适合,则重新采样或调整计划参数),然后在辅助任意中运用输出。这种迭代过程还可以轻松地与自主实验相结合,为数据生成、收集和进一步训练模型提供额外的来源。

MIT钻研职员将Transformer与图神经网络结合,用于计划全新蛋白质

图示:根据给定的二级构造内容比例生成新蛋白质的示例。(来源:论文)

从更理论的角度来看,这里办理的问题是一个繁杂的积木组装问题——积木不仅是氨基酸残基、二级构造,而且是组合这些众多组合空间的数字和各种任意。值得注意的是,这里运用的策略学习了基础和可转移的见解。这产生了大量的条件蛋白质计划以及正向和反向任意办理方案。通过更多的数据,预计可以捕获高度繁杂的现象。

虽然二级构造猜测通常很好,尤其是总体二级构造比率,但与专用溶解度模型相比,溶解度猜测的准确性仍然相对较低。然而,对于 <64 个残基的短序列,准确率达到 0.77。这项任意仅在一小部分~4,000个序列溶解度对(蛋白质长度<128)上进行训练(相对于整个序列数据集中的 40 000 个序列,所有长度高达~1700)。通过更深的模型和更多的预训练,对于长达 512 个氨基酸的序列,溶解度准确度高达 78%,显示出这里开发的步骤在扩展可用性、准确性和通用性方面的巨大潜力。未来的工作可以扩展模型的训练任意,从而考虑更长序列的任意和猜测。

这里运用的训练策略由鉴于文本的提示组成,非常天真,可以轻松适应各种任意。此外,由于该团队训练和猜测编码为文本的数字,因此钻研职员不必专门对数值进行专门编码。这对于任意和猜测开发都有帮助,并且可以允许在架构中封装高维数据。还有机会引入交叉注意力机制,从而对注意力层和图层中处理的信息进行更繁杂的合并。

未来的探索可以在正向和反向方向上纳入额外的猜测任意,并扩展训练集以纳入更多序列(例如,在预训练阶段)。探索与不同生物份子(例如 mRNA 或 DNA)的相互作用也很有趣,由于天真的字节级分词器,这些份子可以添加到任意训练中。

此类训练任意还可能具有多标准问题,例如不仅编码构成蛋白质或生物份子,还编码其他特征,例如相对浓度、pH 或盐浓度等。这最终可能用于建立多模态多标准模型,该模型可以将从不同的模拟和实验范式中开发的知识融入到从预训练到任意的所有训练阶段。

该钻研中运用的多标准方案捕获了物质的基本建立块与所得属性之间的繁杂新关系。因此,它提供了一种协同学习能力,可以表达嵌入基础知识中的一组潜力,用于训练利用未知或鲜为人知的交叉关系的模型。从机制上讲,运用一组以繁杂分层模式排列的通用建立块来创建紧急功能的步骤的基本计划促进了这一点。

「一个很大的惊喜是,尽管该模型是为了能够办理多个任意而开发的,但它的表现却异常出色。这可能是因为该模型通过考虑不同的任意学到了更多东西。」他说,「这一变化意味着,钻研职员现在可以广泛地思考多任意和多模式模型,而不是为特定任意创建专门的模型。」

「虽然我们目前的重点是蛋白质,但这种步骤在资料科学中具有巨大的潜力。」Buehler 说,「我们特别热衷于探索资料失效行为,旨在计划具有特定失效模式的资料。」

论文链接:https://pubs.aip.org/aip/jap/article/134/8/084902/2908328/Generative-pretrained-autoregressive-transformer

相关报道:https://phys.org/news/2023-08-neural-network-brand-proteins.html

给TA打赏
共{{data.count}}人
人已打赏
AI

PPT发明者Dennis Austin去世,曾被认为「降低沟通效率、浪费时间」

2023-9-11 7:27:00

AI

ICCV 2023 Oral | 如何在凋谢天下进行尝试段训练?基于动静原型扩大的自训练法子

2023-9-13 15:12:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索