病毒接下来会做什么?AI 正在帮助科学家预测它们的演变

编辑丨toileter目前期望的防范病毒的措施是通过查看病毒的基因序列来预测病毒将如何进化。 距离那种方法还有很长的路要走,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感和其他病毒的进化。 病毒(尤其是 SARS-CoV-2 等 RNA 病毒)通过积累新的突变不断进化。

图片

编辑丨toileter

目前期望的防范病毒的措施是通过查看病毒的基因序列来预测病毒将如何进化。距离那种方法还有很长的路要走,但越来越多的研究小组正在使用人工智能 (AI) 来预测 SARS-CoV-2、流感和其他病毒的进化。

病毒(尤其是 SARS-CoV-2 等 RNA 病毒)通过积累新的突变不断进化。其中一些变化对病毒有利,使变体能够逃避宿主免疫并迅速传播。通过预测病毒将如何进化,研究人员理论上可以提前设计疫苗和抗病毒治疗。

到目前为止,AI 工具可以预测病毒中的哪些单一突变将最成功,哪些变体将在短期内「获胜」。但他们仍然无法预测未来很长一段时间内将发生的突变或变异的组合。

加利福尼亚州斯坦福大学(Stanford University)的计算生物学家布莱恩·希(Brian Hie)说,这是「一个非常令人兴奋且非常有用的研究领域」。他是最早将大型语言模型应用于病毒突变研究的研究人员之一。不过,预测病毒进化仍然极具挑战性,他随后强调道。

AI工具

过去,研究人员进行了实验以识别具有增强特性的变体,但这些实验既费力又耗时。一些小组,例如北京大学免疫学家曹云龙领导的实验室,已经开发了全新的方法,研究单个突变如何影响病毒逃避一组抗体检测的能力。这些实验可以解释大量的病毒进化,但不是全部。

英国格拉斯哥大学(University of Glasgow)的病毒学家大卫·罗伯逊(David Robertson)说,基于人工智能的蛋白质结构预测工具的到来——例如由伦敦人工智能公司 DeepMind 发布的 AlphaFold,以及由 Meta(前身为 Facebook)创建的 ESM-2 和 ESMFold——为该领域带来了新的活力。

图片

AlphaFold:https://www.nature.com/articles/s41586-021-03819-2

AI 模型需要大量数据才能预测病毒进化。东京大学生物信息学家 Jumpei Ito 说,对导致 COVID-19 的病毒 SARS-CoV-2 进行大规模测序,使得预测成为可能。研究人员现在有近 1700 万个序列可用于训练他们的模型。

一种名为 EVEscape 的模型由马萨诸塞州波士顿哈佛医学院的 Debora Marks 和她的团队开发,已被用于设计 SARS-CoV-2 刺突蛋白的 83 种可能版本,病毒用它来感染细胞。这些刺突化身可以逃避接种疫苗或感染当前流行的变体 4 的人产生的抗体,并可用于测试未来 COVID-19 疫苗的有效性。

图片

论文链接:https://www.nature.com/articles/d41586-023-03201-4

Ito 的小组正在关注病毒适应性的一个更广泛的特征——变体在人群中迅速传播并最终爆发的能力。

研究人员使用 ESM-2 创建了一个名为 CoVFit 的模型,该模型可以预测 SARS-CoV-2 变体的相对适应性。

CoVFit 在 13,643 个 SARS-CoV-2 刺突蛋白变体上进行了训练,还使用了 Cao 小组关于个体突变如何影响病毒逃避抗体能力的实验数据。

Ito 的团队创建了一个使用截至 2022 年 8 月的变体数据进行训练的受限模型,发现它成功地预测了该截止点之后某些变体的适应性改善,包括 XBB,一种在当年晚些时候流行的新变体。

到 2024 年 3 月,全球主要的 SARS-CoV-2 变体是一种名为 JN.1 的变体。使用 CoVFit,Ito 的小组确定了三种有助于 JN.1 恢复健康的单氨基酸变化。此后,这些突变已在全球迅速扩展的变体中被发现。

呼吁更多的数据集

Cao 说,为了提高 AI 模型的准确性,研究人员需要五年多的病毒进化数据。他说,将监测测序数据与实验数据相结合有助于克服一些数据挑战。

其他几个小组也在使用组合数据开发模型。其中一项研究由 Ito 在东京大学的同事、进化病毒学家 Shusuke Kawakubo 领导。

在尚未发表的工作中,Kawakubo 正在研究流感病毒在其宿主中诱导免疫反应的能力。如果流感的血凝素蛋白(其刺突蛋白当量)变化足够大,它可能无法被人体的免疫反应识别,此时,世界疫苗制造商需要相应地调整下一季的流感疫苗。

向前迈出一大步

Ito 说,这些模型中的大多数仅限于理解微小变化的影响,但理论上病毒几乎有无限的进化空间。例如,Omicron 变体以 50 多个突变出现,这种突变数量是研究人员前所未见的。

这些突如其来的突变进化很难预测。Robertson 和他的同事们正在努力寻找使用 AI 模型的方法,以更好地了解这些巨大的进化轨迹并确定它们的极限。

他们发现,如果他们给 ESM-2 一个刺突序列,它可以识别可能发生变化的区域,以及这些变化如何影响蛋白质的其他区域。「这感觉有点像黑魔法」,罗伯逊说。他宣称,目标是能够计算出病毒在人体中检测到后,还有多大空间可以在很早的时候进化。

报道链接:https://www.nature.com/articles/d41586-024-04195-3

相关资讯

因使用生成式 AI 制作恶意软件,日本一 25 岁男子首次被判有罪

据《读卖新闻》25 日报道,日本一名 25 岁林(Hayashi)姓男子因滥用生成式 AI 制造电脑病毒,被东京地方法院判处有期徒刑三年,缓期执行四年,标志着日本首次有因滥用生成式 AI 作出刑事定罪的案例。 据判决书等资料显示,去年 3 月 31 日,该男子左右在川崎市的住所中利用电脑和智能手机,通过生成式 AI 获取的恶意程序设计图(源代码)制作了类似勒索软件的电脑病毒。 此外,他还冒充他人骗取了手机通信卡等物品。

病毒从何而来?AlphaFold等AI正在寻找答案

图示:登革热病毒蛋白的结构。(来源:Spyros Lytras 和 Joe Grove)编译 | 白菜叶人工智能 (AI) 正在帮助重新绘制病毒家族树。AlphaFold 生成的预测蛋白质结构和受聊天机器人启发的「蛋白质语言模型」揭示了病毒家族中的一些令人惊讶的联系,其中包括感染人类的病原体以及新出现的威胁。科学家对病毒进化的理解大多基于基因组比较。但病毒(尤其是那些基因组以 RNA 编写的病毒)的闪电般快速进化以及它们从其他生物体获取遗传物质的倾向意味着基因序列可以隐藏病毒之间深远的关系,而这种关系也可能因所检查

中国科学家运用人工智能算法发现大量全新 RNA 病毒,大幅拓宽 RNA 病毒库

AI在线从中山大学官方微信公众号获悉,10 月 9 日,中山大学医学院施莽教授团队与阿里云李兆融团队在《细胞》(Cell)杂志上发表论文,报告了 180 个超群、超过 16 万种全球 RNA 病毒的发现,这是迄今为止规模最大的 RNA 病毒研究,大幅扩展了全球 RNA 病毒的多样性,该研究将人工智能技术应用于病毒鉴定,发现了传统方法未能发现的病毒“暗物质”,探索了病毒学研究的新路径。据介绍,传统的病毒发现方法包括病毒分离和生命组学的生物信息学分析,高度依赖既有知识,面对 RNA 病毒这种高度分化、种类繁多且容易变异