计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大言语模型

编辑 | 萝卜皮来自深度言语模型的蛋白质表征，已经在计算蛋白质工程的许多任意中表现出最先进的本能。近年来，进展主要集中在参数计数上，最近模型的容量超过了它们所训练的数据集的大小。牛津大学（University of Oxford）的研讨人员提出一个替代方位。他们证明，在密码子而不是氨基酸序列上训练的大型言语模型可以供给高质量的表征，并且在各种任意中都优于同类最先进的模型。在某些任意中，例如物种识别、蛋白质和转录本丰度猜测等，该团队发现，鉴于密码子训练的言语模型优于所有其他已发布的蛋白质言语模型，包括一些包孕超过 5

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大言语模型编辑 | 萝卜皮

来自深度言语模型的蛋白质表征，已经在计算蛋白质工程的许多任意中表现出最先进的本能。近年来，进展主要集中在参数计数上，最近模型的容量超过了它们所训练的数据集的大小。

牛津大学（University of Oxford）的研讨人员提出一个替代方位。他们证明，在密码子而不是氨基酸序列上训练的大型言语模型可以供给高质量的表征，并且在各种任意中都优于同类最先进的模型。

在某些任意中，例如物种识别、蛋白质和转录本丰度猜测等，该团队发现，鉴于密码子训练的言语模型优于所有其他已发布的蛋白质言语模型，包括一些包孕超过 50 倍训练参数的模型。

该研讨以「Codon language embeddings provide strong signals for use in protein engineering」为题于 2024 年 2 月 23 日发布在《Nature Machine Intelligence》。

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大言语模型

蛋白质表征进修仍存在不少挑战

预训练言语模型已成为计算蛋白质工程许多领域不可或缺的工具。大多数标记蛋白质数据集的大小有限，因此首先在大型、未标记的序列信息语料库（例如 UniRef）上对庞大的深度神经网络进行预训练，并具有自监督的重建目标。自监督训练赋予模型的潜在变量具有高度信息性的特征，称为表征进修，然后可以在可用训练数据有限的下游任意中利用这些特征。

蛋白质表征进修目前是用于猜测变异适应性、蛋白质功能、亚细胞定位、溶解度、结合位点、信号肽、翻译后修饰、内在紊乱等的最先进工具的核心，它们在实现准确的免比对蛋白质结构猜测的道路上显示出了巨大潜力。因此，矫正进修表征是在计算蛋白质工程中实现一致、实质性矫正的潜在路子。

迄今为止，实现更多信息表征的路子遵循两个主要方位：追求增强规模的模型，其中增加模型容量单调地进步本能；模型架构的矫正也持续带来了本能提升。但是，这两个方位都耗费人力和计算机时间，需要显著优化，并且似乎供给递减（对数）回报。

更厚实的数据是另一条路子

矫正进修表征的另一种路子可能是利用包孕更厚实信号的生物数据。虽然蛋白质言语模型迄今为止主要关注氨基酸序列，但编码蛋白质的 DNA 序列中还包孕其他信息。

蛋白质编码 DNA (cDNA) 的言语依赖于 64 个核苷酸三联体，称为密码子，每个密码子编码一个特定的氨基酸或序列的末端。

虽然这种 64 密码子字母表是高度简并的，大多数氨基酸由多达 6 个不同的密码子编码，但目前的研讨讲明，编码相同氨基酸（同义）的密码子不能互换利用。同义密码子的利用与蛋白质结构特征相关，近 60 个同义突变与人类疾病有关。

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大言语模型

图示：将蛋白质言语模型扩展到密码子言语。（来源：论文）

密码子的利用也与蛋白质折叠有关，有充分的证据讲明密码子序列的变化会影响折叠动力学、折叠路子，甚至正确折叠的蛋白质的量。这一证据讲明，同义密码子的利用包孕有价值的生物信息，机器进修模型可以利用这些信息来进步猜测任意中的信噪比。

用密码子序列，而不是氨基酸序列

在最新的研讨中，牛津大学的研讨团队证明在密码子序列上预训练蛋白质言语模型 CaLM（codon adaptation language model，由 8600 万参数进行训练），可以产生能够捕获关键生化特征的信息厚实的蛋白质表征。测试讲明，根据密码子而不是氨基酸序列训练的蛋白质表征，在各种下游任意中表现出显著的优势。

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大言语模型

图示：CaLM 概述。（来源：论文）

该团队的 8600 万参数言语模型的本能，优于其他具有类似容量的模型，在许多情况下，甚至优于参数超过 50 倍的模型。这种本能是由于密码子言语模型能够捕获跨 DNA 序列的密码子利用模式的能力，并且当密码子利用信息被损坏时，这种优势就会消失。

cDNA 训练模型的额外训练成本可以忽略不计，并且似乎可以进步所考虑的所有序列级任意的本能。由于高通量蛋白质测序几乎完全是通过 DNA 序列的翻译来完成的，因此原始编码序列是公开可用的并且可以用于训练。研讨人员建议利用 cDNA 而不是简单的氨基酸序列来训练蛋白质言语模型，这为矫正计算蛋白质工程供给了一条明确的路子。

密码子言语模型还可以为无需比对的蛋白质结构猜测，供给有价值的进化信号，特别是在依赖言语模型来猜测蛋白质各部分之间关系的 ESMfold 和 OmegaFold 等方法中。

鉴于 cDNA 的模型可以恢复更广泛的进化关系，例如同义突变，这在核苷酸水平上很明显，但在氨基酸水平上并不明显。已知同义密码子的利用与结构特征相关，并且密码子利用和蛋白质折叠之间的联系可能为已知无法捕获折叠物理原理的方法供给有价值的信号。

研讨人员建议，将密码子言语模型纳入免比对蛋白质结构猜测的流程中，很可能为加速高精度蛋白质结构猜测供给一条成本可以忽略不计的路子。

进步蛋白质表达质量的两个方位

该团队还提出了进一步进步蛋白质表达质量的两个主要方位。

一是规模扩大。当前的研讨利用了一个只有 8600 万个参数的简单模型，这个大小与最新出版物中的标准模型大小相比显得相形见绌。

利用的数据集也相对较小：与 ESM 系列模型中利用的 1.25 亿个序列或某些 ProtTrans 模型中利用的近 5 亿个序列相比，仅 900 万个序列。通过在包孕数亿 DNA 序列的数据集上训练数十亿参数模型，存在一条明确的路子来进步表征质量。

另一个潜在的矫正方位是开发结合氨基酸和编码序列的多模式模型。该研讨的消融实验讲明，在缺乏密码子利用信息的情况下，模型本能大幅下降，以至于低于数据集中的每个氨基酸模型。然而，由于模型间接访问氨基酸序列，因此原则上它应该能够访问与仅氨基酸模型相同的信息。

这种差异可能是由于训练期间缺乏氨基酸水平信号造成的，因此结合氨基酸和密码子序列的训练模型可以进步整体模型本能。

更厚实的输入带来新视角

在生物学中，人们非常关注数据集偏差的影响，但相比之下，人们很少甚至没有关注蛋白质工程中更厚实的输入的重要性。随着计算能力和模型架构的进步，利用更厚实的生物数据为进步生物学中机器进修的能力供给了明确的方位。

鉴于 cDNA 训练的大型言语模型的开发，将使研讨「不直接由氨基酸序列确定的蛋白质特点」成为可能。例如，密码子的利用与蛋白质折叠的相关性，实验证据讲明密码子序列的变化确实会影响折叠动力学、折叠路子，甚至正确折叠蛋白质的数量。

仔细选择密码子序列是蛋白质科学的一个关键目标，其中表达的 cDNA 的特定序列会对产量产生巨大影响。该团队提出的鉴于密码子的言语模型，代表了利用机器进修方法来研讨蛋白质的这些特点和其他特点的第一步，而这些特点迄今为止还没有被氨基酸言语模型解决。

相关报道：https://www.nature.com/articles/s42256-024-00791-0

{{userData.name}}已认证

计算蛋白质工程最新SOTA方法，牛津团队用密码子训练大言语模型

谈谈中国第一款AI搜寻产物——天工AI

秘塔AI搜刮！让你的信息获取效劳提高 200%

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！