Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

图来自网络编辑 | ScienceAI普林斯顿王梦迪团队迎来了一项具有划时代意义的突破，该团队开发了世界首个解码mRNA非翻译地区序列的大模型，用于准确猜测从mRNA到蛋白质的转录功能，及设想新序列用于mRNA疫苗。该研讨论文的题目是「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」，已被《Nature Machine Intelligence》接收。这篇论文意味着大说话模型可以用于

图来自网络

编辑 | ScienceAI

普林斯顿王梦迪团队迎来了一项具有划时代意义的突破，该团队开发了世界首个解码mRNA非翻译地区序列的大模型，用于准确猜测从mRNA到蛋白质的转录功能，及设想新序列用于mRNA疫苗。

该研讨论文的题目是「A 5’ UTR Language Model for Decoding Untranslated Regions of mRNA and Function Predictions」，已被《Nature Machine Intelligence》接收。

这篇论文意味着大说话模型可以用于猜测和设想mRNA疫苗，其中新设想的序列经过尝试证实远高于传统疫苗的转录服从。AI和说话模型正在颠覆生物学和制药研讨中的传统方法。

Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

论文链接：https://www.nature.com/articles/s42256-024-00823-9

mRNA和mRNA疫苗

2023年诺贝尔生理学医学奖授予了mRNA技术的两位奠基人——Katalin Karikó和Drew Weissman，表彰他们对于mRNA机理研讨和疫苗研发的奠基性，以及mRNA疫苗对人类健康的重大贡献。他们的研讨不仅深化了我们对mRNA与免疫系统互动方式的理解，而且还推动了mRNA疫苗开发的历史性突破。

mRNA，全名信使核糖核酸，是生物体内至关重要的遗传物质。mRNA是单链的碱基序列，从DNA转录而来，其作用是将DNA中的遗传信息转化为蛋白质的分解指令，通过翻译(translation)产生特定的蛋白质。mRNA如何转录？如何调控蛋白质的分解？这些是生物学规模中最重要的问题之一，通过研讨mRNA，科学家们希望能解码生命的奥秘。

mRNA分为中间的编码区(coding region) 和两端的非编码区(untranslated region, or UTR)。编码区的碱基序列对应着目标蛋白质的氨基酸序列, 科学家们已经掌握了编码地区和蛋白质的序列对应关系。mRNA最神秘的部分是非编码区，尤其是前端的非编码区(5’ UTR)。原因在于mRNA的非编码区的碱基序列深度参与并调控了编码区序列的转录过程，非编码区碱基序列和细胞里其他分子交互，调控了蛋白质的表示, 分解服从, 以及本身的稳定性等。

因此，在mRNA疫苗设想中，精确设想其非编码区序列，将直接决定mRNA序列在细胞里的翻译服从，最终决定了疫苗的有效性。深入研讨mRNA的非编码区是重要的生物学问题，不仅有助于揭示基因表示的复杂机制，而且在疫苗设想和疾病治疗策略的开发中起到了关键作用。

Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

图 1：DNA-mRNA-蛋白质的转录翻译过程，及其mRNA的不同地区。(左图来自网络)

UTR-LM: 多模态mRNA非转录地区说话模型

RNA序列由四种碱基组成，即核苷酸腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(U)组成，就像人类说话由一系列字母构成一样。这些核苷酸按照特定的规则排列，可以传达复杂生物功能的信息。

UTR-LM模型是一个针对mRNA非翻译地区研讨而开发的说话模型。它基于transformer架构，通过类似进修自然说话的方式在核苷酸序列上进行自监督进修，并结合了二级结构(SS)和最小自由能(MFE)等多模态数据进行预训练。

为训练该模型，研讨团队收集了多个数据库和不同物种的天然mRNA序列：包括Ensembl数据库，涵盖五个物种(人类、大鼠、小鼠、鸡和斑马鱼)；Sample等提出的八个分解序列库；以及Cao等早期工作整理的三个内源性人类数据集 (分别来自人类胚胎肾293T细胞、前列腺癌细胞和肌肉组织)。

Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

图 2：mRNA非翻译地区说话模型。

在预训练后，研讨团队针对多种mRNA翻译功能的猜测任务进行了微调。平均核糖体负载量(MRL)、mRNA翻译服从(TE)和表示水平(EL)的猜测对生物医学研讨极为重要，因为这些指标直接决定了mRNA如何高效地被翻译成蛋白质，影响蛋白质产量和治疗蛋白质的开发。

在这些关键任务上，该mRNA非翻译区说话模型的表现(Spearman R)超过了六种最先进的基准方法，包括RNA-FM和RNABERT两种领先的RNA大说话模型。在平均核糖体负载量的猜测上，该模型比Optimus横跨高达9%，比FramePool横跨高达6%，并且比RNAFM高达42%。对于mRNA翻译服从和表示水平的猜测，该模型分别比Cao-RF横跨高达5%和8%，而与Optimus相比则横跨高达25%和47%。

此外，识别未注释的内部核糖体进入位点(IRES)对于理解和利用mRNA在细胞内非典型翻译启动机制至关重要，这对于开发新型治疗策略和疫苗具有重大意义。在这一挑战性规模，该模型也取得了显著进步，将AUPR从0.37提高到了0.52。这些结果清楚地表明，该模型在这些关键任务上的性能远超现有的先进方法，显示了其在mRNA非翻译地区序列猜测规模的先进性。

这些成果突显了mRNA说话模型在生物学研讨中的强大潜力。它不仅提升了对mRNA的非转录地区功能的猜测精度，而且加深了我们对于mRNA的非转录地区在基因表示和翻译调控中作用的理解。凭借其先进的模型架构和全面的数据训练，mRNA非翻译区说话模型为生物学和医学研讨规模提供了一个重要的科研工具，有助于推动这一规模的发展和创新。

Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

图 3：内源性数据集中mRNA翻译服从和表示水平的猜测性能(Spearman R)。数据集包括人类肌肉组织(Muscle)、前列腺癌细胞(PC3)和胚胎肾293T细胞(HEK)。(a) 在翻译服从猜测方面，mRNA非翻译地区说话模型的性能最高比Cao-RF横跨5%，比Optimus高达27%。(b)在表示水平猜测方面，mRNA非翻译地区说话模型的性能最高比Cao-RF横跨8%，比Optimus高达47%。配对t检测证明mRNA非翻译地区说话模型在这些任务上显著优于其他基准方法(p < 0.05)。

mRNA说话模型助力设想高效疫苗

在该研讨中，研讨团队设想了211条自然界中不存在的新mRNA非翻译地区序列，并测试这些新序列用于疫苗的潜力，目的是提高mRNA疫苗的翻译服从、并最大化蛋白质的分解量。

为了验证这些新序列的有效性，团队的合作伙伴RVAC公司采用了mRNA转染和荧光素酶尝试。尝试中，团队测量了疫苗的相对光单位(RLU)用于评估mRNA的蛋白质产量，从而直观地反映出新的mRNA序列设想对蛋白质分解过程的影响。尝试结果十分优异。相较于已经广泛应用的传统mRNA疫苗序列，团队设想的新序列实现了高达32.5%的显著服从提升。

同时，研讨团队还测试了该说话模型在新生物尝试上的可迁移性。通过zero-shot learning (零样本适应性猜测)，mRNA UTR说话模型在全新的任务上达到远高于其他方法的猜测准确性。展现出了模型的优势和可迁移性。

这些尝试结果不仅证实了新型RNA非转录地区序列设想的有效性，而且还彰显了呆板进修技术在生物医药规模应用的巨大潜力。该研讨给出了提高疫苗和治疗性蛋白质生产服从的新策略，为定制化药物设想和个性化治疗提供了新的途径。

Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

图 4：211个新设想的mRNA非翻译地区的测试结果。(a)与28,246个内源性mRNA非翻译地区相比，新设想的mRNA非翻译地区具有更高的mRNA翻译服从猜测值。(b)在湿尝试中，该研讨对比了前20个设想的mRNA非翻译地区与两种常用基准的翻译服从。(c)mRNA非翻译地区说话模型在猜测准确性方面显著超越了现有的基准方法。

前景和结论

这项研讨在Twitter上引起了生物学专家的广泛关注和讨论。他们高度评价了这个「mRNA的非转录地区的多物种说话模型」，并特别强调将呆板进修应用于生物学数据分析的重要性。

专家们认为，目前生物学规模在这方面的研讨还不够充分，而这项工作正好填补了这个空白，为未来的研讨提供了新的方向和尝试数据。北美和欧洲多个尝试室也非常感兴趣向该研讨团队发出了合作邀请。

Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

图 5：生物学专家在Twitter上对「mRNA的非转录地区的多物种说话模型」给予积极评价，强调其在生物学研讨中的创新应用。

同时，这个研讨也吸引了业内公司的注意，biotech知名VC如FlagShip已和研讨团队多次深入交流，努力复现这个方法。这项研讨突显了AI for science的潜力。

mRNA技术已经在医学界引起了革命，这项针对名RNA的说话模型研讨不仅提高了mRNA疫苗设想的服从和准确性，还标志着AI技术对于创新性科学和医学研讨的推动、以及保障全球健康安全的巨大潜力。这一技术的广泛应用和更多突破，以推动科学的前进并改善人类健康。

作者简介

王梦迪就职于普林斯顿大学，任统计与呆板进修中心、电气与计算机工程系副教授，其研讨方向包括强化进修、生成人工智能、AI for Science和呆板进修理论。

她于2013年在麻省理工学院获得计算机科学博士学位，曾任DeepMind、高等研讨院和Simons理论计算机科学研讨所的访问研讨科学家。

王梦迪在2016年获得数学优化学会的青年研讨者奖、2016年普林斯顿SEAS创新奖、2017年的NSF Career Award职业奖、2017年的谷歌研讨奖、2018年的MIT科技评论35岁以下创新奖、2022年的WAIC云帆奖。

因其在在控制系统、呆板进修和信息论等交叉学科的杰出贡献，她于2024年获得北美自动控制学会颁发的ACC Donald Eckman奖。她担任ICLR 2023的程序主席（PC）和Neurips、ICML、COLT等国际呆板进修的高级地区主席（Senior AC），任Harvard Data Science Review, Operations Research等期刊的Associate Editor。

Jason Zhang曾在wave Life science, 诺华和赛诺菲有十五年工作经验，曾任RVAC首席科学家。

Jason持有化学和免疫学双博士学位，分别在协和医科大学的梁晓天院士和纽约大学的Dan Littman院士的指导下完成，并在耶鲁大学和哈佛大学完全了生物化学博士后研讨。

他曾推动了近十个药物开发项目进入临床开发的不同阶段，并曾经成功筹集了超过1亿美元的资金。

在2023年11月，他携手诺贝尔医学奖获奖者Drew Weissman共同成立了Zipcode Bio。

Zipcode Bio定位于RNA技术的前沿，致力于推进下一代的RNA疫苗和疗法的研发。Zipcode Bio重视精准的体内靶向给药、成本效益以及消除对冷链物流的依赖，产品线覆盖了肺纤维化、自身免疫疾病以及癌症等重要规模。

{{userData.name}}已认证

Nat. Mach. Intell.|设想超高效疫苗，普林斯顿团队开发首个解码mRNA序列大模型

3倍灵敏度，搜刮百万卵白对只需几秒，复旦、山大、上海交大开发新的卵白质说话模型

比手动快13倍多，「机器人+AI」发现电池最佳电解质，加速质料研讨

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

钉钉AI重磅更新：深入业务场景，上线工单等场景AI助理

Red Hat 收购 Neural Magic 并开源其技术：优化通用设备 AI 性能，可媲美专用芯片

雷蛇发布 Gaiadex：矿物级 AI 分解产品组件，5 分钟内生成 60 页环保报告

AI面临的五个蛋白质设计问题，Nature找了一群专家来讨论

谷歌扩大 AI 洪水预警系统覆盖范围，惠及全球 7 亿人

OpenAI 联合创始人回来了，还是总裁，将更专注重大技术挑战