1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

编辑 | 萝卜皮不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI 生命科学」的讨论。在学界,科学家的目标往往是先认识世界,然后在认识的前提上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命体系的多维度深刻认识是当前人类研讨的重要一步,AI 是达成这一步的重要工具。近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练前提模型,旨在综合进修遗传和蛋白质组语言,涵

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

编辑 | 萝卜皮

不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI + 生命科学」的讨论。

在学界,科学家的目标往往是先认识世界,然后在认识的前提上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命体系的多维度深刻认识是当前人类研讨的重要一步,AI 是达成这一步的重要工具。

近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练前提模型,旨在综合进修遗传和蛋白质组语言,涵盖 169,861 个物种的数据。

该模型不仅可以对核酸、蛋白质的内部特征举行挖掘,还可识别核酸与蛋白质之间的联系,可以帮助研讨人员索求更多生物体系的内在逻辑与规则。

该研讨的预印版本「LucaOne: Generalized Biological Foundation Model with Unified Nucleic Acid and Protein Language」,已于 2024 年 5 月 14 日发布在 bioRxiv 预印平台。

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

开源地址:https://github.com/LucaOne

论文链接:https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1

LucaOne 为何能快速跨模态处理数据

LucaOne 的核心亮点在于其独特的自监视加半监视进修架构,该架构基于生物语言的本质属性设计,使得模型能够在 10 亿量级的序列与注释信息上举行进修,参数规模约 1.8 B。

这一设计不仅允许模型处理核酸和蛋白质数据,而且能够识别两者之间的内在联系,即生物学中心法则中「DNA 到 RNA 再到蛋白质」的转化过程。

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

图示:LucaOne 的架构图,从数据到模型构建再到上游任意应用。

通过进修「中心法则」,LucaOne 能够很好得识别 DNA 序列与对应蛋白质之间的内在联系,这对于理解生命活动的基本规律十分重要。模型提供的前提才能,可以帮助研讨人员破译更多中心法则相关的细节,让人们更加深入地理解生物世界的底层逻辑。

「这个模型目标是希望进修生物体系的底层编码,目前这个版本以基因组、转录组、蛋白质组为核心。其中的核苷酸及氨基酸序列是生物体系里的两种模态,放在一起统一进修能帮助模型更快进修到生物体系的编码体系。」该项目的负责人、阿里云飞天实验室生物计算研讨总监李兆融解释道。

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

图示:LucaOne的训练数据、训练任意与在基因与蛋白质上的表征才能。

为了使预训练大模型模型进修更彻底、更好地与上游任意模式的契合、更广泛的应用,LucaOne 除了利用核酸与蛋白质本身的序列数据举行自监视进修之外,也加入了核酸与蛋白质的一些前提的重要的注释信息来举行半监视进修。

这种设计了加速模型的训练效率,使模型在进修的数据维度、量级、及参数量上达到一个很好的平衡——既覆盖足够多的物种,又保证模型的规模在一个可以被大规模高效使用的范围内。

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

图示:LucaOne对不同类型输入的上游任意的适用才能。

「这里我们考虑的是生物序列的信息密度,虽然不能这样武断的说,但是大致上基因组的信息密度是低于文本信息的,并且可能分布不均。比如,生物序列里可能会存在一些无意义片断,且片断非常长;应对这类问题,我们需要一些取巧的方式。」李兆融解释道,「因此,在我们设置了 8 个有监视的任意,这使得模型更有效的举行进修。」

「模型的参数有 1.8 B,什么概念呢?我们希望模型即足够「大」,能理解复杂生物体系,又不至于太大影响上游的使用效率。在整理高质量数据后,我们将模型参数设置在这个级别。」

LucaOne 在上游任意中的稳健性能

为了考证 LucaOne 对各类生物计算任意的价值,研讨人员设置了一系列测试考证:首先是一个「异想天开」的任意,假设一群火星人来到地球,仅基于测序和建模才能,能否进修到分子生物学的一个核心规则:中心法则。

他们选取 13 个物种的核酸序列和其对应蛋白的正负样本数据集,关系对总数量为 24000,其中正负样本比例 1:2。其中基因序列数据是其在基因组的原始数据,包括了大量的非编码区(内含子,调控元件,及可能的「垃圾片断」等)。

为了考证模型的进修才能,研讨人员采用训练:考证:测试比例为:4:3:25;即仅 3200 组数据作为训练,18750 组数据作为测试集来猜测其核酸序列是否可以翻译成数据组里的蛋白序列。

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

图示:LucaOne对中心法则的进修才能。

实验结果显示,LucaOne 在中心法则进修任意上取得了显著成效,猜测准确率达到 0.85,远优于其他计算方法。

当分析细分表现时发现,LucaOne 在处理具有特殊进化适应性的生物如海鞘时,猜测表现特别差。海鞘利用中心法则的具体规则-密码子偏好性,与其他生物明显不同。研讨人员表示,这种情况可以认为海鞘用的是一种中心法则语法「方言」。而这种「方言」在训练数据集里仅有 100 条,因此模型没有很好的进修到这种规则。这表明了生物世界的多样性与复杂性,也为模型未来的数据扩充和优化指明方向。

在另外广泛选取的 7 个任意里,LucaOne 也都表现优异,尤其是在流感 H3N2 病毒的免疫逃逸风险猜测任意中,LucaOne 结合简单感知机模型实现了 100% 的准确率,可以为这一类公共卫生的重要问题提供了有力的支持。

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

图示:流感 H3N2 病毒的免疫逃逸风险猜测。

这也是一个跨多个专业团队的长达1年的持续工作成果。

中山大学医学院施莽传授及其团队深度参与了 LucaOne 模型的数据设计与考证,提供了丰富的生物学视角和经验。

「LucaOne 是一项极为重要的尝试。我们首次尝试将整个生物界的基因组和蛋白质组的数据压缩到一个模型中举行进修,这为我们提供了一个前所未有的研讨视角。」施莽传授表示。

「在这一研讨过程中,我们已经发现了许多有趣的现象。最让我惊讶的是,在没有任何先验知识的前提下,LucaOne 确实能够更有效地进修中心法则中核酸与蛋白质之间的对应关系。这是一种全新的研讨方法,我期待利用这个模型索求更多的生物学问题。」施传授说。

中国医学科学院北京协和医学院病原生物学研讨所所长、美国微生物科学院会士舒跃龙传授及其团队参与了 LucaOne 在流感病毒方面的分析与考证工作,并与阿里云生物计算团队持续开展「AI + 病原学」的前沿索求。

舒跃龙传授表示:「将前沿的 AI 技术与病原生物学相结合具有重大的科学意义和社会价值。LucaOne 模型为这一交叉领域的研讨提供了强大的工具。我们与阿里云团队正在举行更深入的合作研讨。」

「我坚信,通过这种紧密的跨学科协作,我们能索求更多病原生物起源进化、跨种传播以及感染致病等方面的规律,为传染病防控和生物安全做出更大的贡献。」舒传授说。

李兆融表示:「有两件事情我们会继续往下做。第一是不断去突破生物体系前提模型的边界,我们行业正在积累更多的前提数据,也有非常丰富的其他信息可以补充进修,我们看到的,听到的,感受到的丰富多彩的生物世界都是模型进修的材料。这也会随着更多 AI 技术的创新一起推动这一类前提模型的进步。」

「同时我们在和多个顶尖的科研团队就几个特定领域举行持续的应用研讨,主要围绕在微生物及病原学领域。这几个方向有明确的社会价值,以及也能和前提模型研发互相借鉴, 共同索求前进。」李兆融说。

该团队相信,随着更多数据、更丰富模态的加入,以及模型的持续升级,LucaOne 将更深入揭示生物体系的智能,推动 AI 在生物科学、疾病诊断、药物开发等领域的广泛应用。随着 LucaOne 模型的开源,全球科研人员将共享这一生物计算的强大工具,共同加速生命科学的索求与创新。

给TA打赏
共{{data.count}}人
人已打赏
理论

微软发布首个大气AI底子模型Aurora

2024-6-4 15:30:00

理论

自动化所研发脉冲动静计较的毫瓦级超低功耗异步感算一体类脑芯片

2024-6-4 15:46:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索