近期,AI for Science 领域的惊喜不断,持续在物理、化学、生物领域开花结果。
不仅诺贝尔物理和化学奖双双颁给 AI 领域的科学家,阿里云与中山大学的科研也带来了RNA病毒寻找的突破,国际顶级学术期刊《Cell》收录了这一研究论文。
《基于人工智能探索和记录隐藏的RNA病毒世界》论文提出深度学习模型"LucaProt",用于快速准确判别RNA病毒,颠覆传统病毒发现方法。LucaProt基于Transformer框架与大模型技术,结合蛋白质序列与结构特征,在测试中展现出高准确性与特异性。通过引入蛋白质结构性信息,模型在外部验证集上达到97.4%召回率及0.023%假阳性率,检测速度仅需几百毫秒至几秒,远超经典方法的几天至几周。
研究团队利用云计算与AI技术发现超16万种新RNA病毒,是已知种类的近30倍,深化了对RNA病毒多样性和演化历史的认知,并带来病毒学新发现。
论文的作者团队横跨了生物学领域与 AI,是传统学科与 AI 前沿技术双方人才的高效联合。阿里云飞天实验室算法专家贺勇与中山大学医学院侯新博士,为论文共同第一作者。论文共同通讯作者为中山大学施莽教授,阿里云生物计算研究总监李兆融,和悉尼大学全球知名病毒学家 Edward Holmes。
(阿里云和中山大学团队,右二贺勇、右三李兆融、右四施莽、左四侯新)
作为论文共同一作,贺勇表示:“基于AI+病毒学的新研究框架刷新了人类对病毒圈的认识,随着这种认识的不断完善,有助于人类对未来可能发生的大流行进行预警,以及进一步推动RNA病毒疫苗的研发。”
AI for Science 探索,更需要“AI+云计算”的多面支持。近几年,AI 技术助推学术发展上,阿里云已与全球超过70所高校开展学术合作,累计支持合作高校发表100 余篇高水平论文,共同申请近70项发明专利。
在 AI for Science领域,阿里云与中山大学、浙江大学等国内知名高校共同开展病毒学、药物学、生物学等方向的科研课题,在生命科学领域已发表核酸和蛋白质统一基础模型-LucaOne、RNA病毒发现-LucaProt、磷循环蛋白家族识别-LucaPCycle 等研究成果,其中多项成果由贺勇主导参与。
可标准化的 RNA 病毒寻找,AI 大展身手
AI 科技评论:是否有预期到这次研究成果的突破?
贺勇:我们起初是抱着试一试的态度,目标是找新病毒,能不能发到顶刊,取决于最终的研究成果。找RNA病毒的方法,已经有一套传统固定的方法了,其过程已经可以标准化,但过程还很繁琐与复杂,我们就想着尝试用 AI 的方法来处理寻找 RNA 病毒的问题。当然也需要一定的效果直觉,十年的AI实践经验让我觉得这个问题AI能够取得不错的效果。
AI 科技评论:AI 的方法具备哪些优势?
贺勇:传统的方法需要有很多人工迭代的过程,需要人去查看确认、结果筛选、验证,是相当复杂的过程,专家参与的工作较多。我们使用了最新的第三代深度学习技术,基于Transformer架构,基于生物领域的大模型构建了LucaProt,对RNA病毒的复制酶序列进行表征,基于该表征进行RNA病毒鉴定。
AI 的方法就是端到端,把中间很多人工过程直接省略了。生物数据与通俗意义上的文本和图像其实不太一样,一般人是无法直接阅读的,要借助很多生物的工具才能辨认。AI 的好处在于,有了相关数据就可以自动去发现里面的一些隐含信息,识别隐含信息更利于发现病毒,所以使用 AI 的效果就非常好。
我们训练的模型LucaProt,只要输入一个序列,就能判断其是否是RNA病毒,而不需要复杂的生信过程,或者传统生物方法的过程。我们有一个独立测试数据集来测试这个模型的效果泛化性,发现效果很好。通过全球大规模推理,经过生物实验的验证,用 AI 的方法发现了超16万种新RNA病毒。
AI 科技评论:相较于 LucaOne 模型,LocaProt 有哪些技术突破?
贺勇:LucaOne是一个生物基础大模型,无差别对核酸与蛋白质进行表征。LocaProt是生物大模型的表征能力,针对特定任务(如寻找新病毒)进行优化的模型。LucaOne提供强大的基础表征,而LocaProt则解决具体的下游任务。
AI 科技评论:这次研究中如何处理生物与AI的跨学科隔阂?
贺勇:我们团队在医疗和生物方面有一定的基础,但直接对话生物学家仍有困难。阿里云生物计算研究总监李兆融作为中间角色,加速了双方理解。交叉学科,桥梁的作用是不可替代的。
AI 科技评论:这个过程中遇到的主要瓶颈是什么?
贺勇:最大的瓶颈是生物学知识门槛。我们需要不断学习生物知识,以全局思维处理生物问题。此外,生物学数据的校验和处理也面临挑战。
AI 科技评论:如何解决这些瓶颈?
贺勇:我们呼唤复合型人才,即具备计算机和生物学双重背景的人才。同时,与交叉学科的学院合作可能更得心应手,因为双方能互补解决问题。
AI for Science 仍处于早期识别阶段
AI 科技评论:AI for Science 的方法可以抽象成什么模式?
贺勇:AI的方法可以抽象为以下模式:首先分析数据与面对的科学问题的特性,然后基于这些特性设置专门的模块,利用现有技术进行优化改造或提出新的模型架构以适应问题,接着进行效果评估和模型迭代,最后进行科学新发现与挖掘。
AI 科技评论:如何衡量一个项目是否适合用 AI 解决?
贺勇:我们会评估传统方法的成熟度、对问题的理解门槛以及AI可能带来的效果。同时,深入了解问题背后的规律是关键,有规律可循的问题AI往往能取得好效果。
AI 科技评论:您认为 AI for Science 在生物学领域具备哪些优势?
贺勇:AI for Science在生物学领域的优势主要体现在三个方面:一是生物数据的开放性和丰富性,特别是高质量数据的可获得性,比如美国国家生物技术中心会把开放的数据经过由全球范围内的科学家组成的校验组去人工校验,经过人工校验之后就变成了高质量数据且全世界可以获取;二是计算资源的不断增强与成本下降;三是技术迁移的便利性,如生物序列与文本序列具有的相似性,使得与语言模型技术可以无缝迁移至生物学领域。
AI 科技评论:最近也是诺奖的物理跟化学都颁给了AI,您这次的研究成果也为病毒学带来的突破,您对 AI for Science 发展有哪些看法?
贺勇:AI for Science虽然仍处于起步阶段,但已经成为了解决科学问题的一种非常重要的手段与研究方法。它之所以受欢迎,是因为科学中有许多待解问题。现阶段,需要将科学问题进行抽象,形式化定义成输入输出、有数据支撑、可计算的问题,AI 可以更好的解决。
在生物学中,AI刚开始发展,目前处于第一阶段,比如识别生物序列的功能、病毒序列鉴定、来源及其感染性等,相当于文本或图像领域的读懂与阶段,尚未达到生成式的第二阶段。诺贝尔化学奖得主 David Baker 所做的蛋白质生成研究,想要什么功能蛋白质,就用 AI 的方法生成一个,现在效果还不是很好。
未来,在生物医疗领域,AI将逐渐进入生成式阶段,如生成抗体或小分子药物等。然而,目前 AI for Science 仍处于认识世界的阶段,离改造世界还有一定距离。但前景是光明的,只是所处的阶段的问题。
AI 科技评论:要达到AI for Science改造世界的阶段,需要哪些条件?
贺勇:要达到 AI for Science 改造世界的阶段,需要三个条件:一是更多精细化的数据积累,特别是治疗疾病和制药的数据。二是大模型架构的变革,以适应生物学信息的空间分子结构,目前的主流架构 Transformer 是基于序列的。但生物学的信息本身不是一个序列,是一个分空间分子结构,所以还是无法完全获取全部信息,存在信息损失。三是基础设施的跟进,如算力、显卡等需要重构与之匹配。这些条件在自然科学领域使用AI时都是通用的。
AI 科技评论:您对 AI for Science 的未来发展有何担忧?
贺勇:目前AI仍有诸多局限性,特别是它无法解决一些精细和微小变化的问题。AI仍依赖大量数据,还无法真正像科研人员那样进行创新和改变。此外,生物学实验中的手艺活和实操技术也是目前阶段,AI无法替代的。
AI for Science,阿里在路上
AI 科技评论:您为何选择深耕 AI for Science 领域?
贺勇:我受性格驱使,喜欢解决问题。我拥有计算机和AI背景,希望用这些技能去解决科学界的具体问题,探索AI在科学领域的潜力。
AI 科技评论:阿里云在生命科学领域的三款大模型均已开源,是基于怎样的考虑呢?
贺勇:阿里云开源这三款大模型主要是为了让更多人使用,推动生物学细分领域的基础通用模型完善。同时,开源有助于模型进一步优化,并降低使用者数据训练的成本。
AI 科技评论:阿里在与高校合作 AI for Science 时有哪些优势?
贺勇:阿里具备显著的算力优势,同时拥有支持有意义项目的文化基因。此外,阿里云、达摩院与高校有长期合作经验,建立了深厚的信任关系。
AI 科技评论:与 AI 技术高校合作时有何感受?
贺勇:AI 的加入能加速传统学科科研的速度,实现颠覆性的提速。但传统学科有自身的发展节奏,需要双方共同适应与推进。
AI 科技评论:后面的研发规划是什么?
贺勇:我们继续对现有基础的模型大模型 LucaOne 进行迭代,解决更多潜在的问题,并与合作团队深化合作,来解决更多的科学问题。目前仍专注于生物领域,未来可能向下游临床和制药方向发展。