中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

作者 | 中国科学院多学科交叉钻研团队编辑 | ScienceAI被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度剖析性命奥秘的序幕。由于性命过程具有多维度、高度动态的特点,传统实验钻研手段难以系统精确地破解基因密码的底层共性法则,亟需运用强大的计算技术来实现基因数据的表征建模与学问发现。当前,以大模型为核心的人工智能技术在计算机视觉和自然语言明白等领域引发了革命,展示出了对数据和学问的深入明白的能力,有望应用到性命科学钻研领域,系统精确地破解基因密码的底层共性法则。近日,由中国科学院多学科交叉钻研团

中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

作者 | 中国科学院多学科交叉钻研团队

编辑 | ScienceAI

被称为20世纪人类三大科学计划之一的人类基因组计划,拉开了深度剖析性命奥秘的序幕。由于性命过程具有多维度、高度动态的特点,传统实验钻研手段难以系统精确地破解基因密码的底层共性法则,亟需运用强大的计算技术来实现基因数据的表征建模与学问发现。

当前,以大模型为核心的人工智能技术在计算机视觉和自然语言明白等领域引发了革命,展示出了对数据和学问的深入明白的能力,有望应用到性命科学钻研领域,系统精确地破解基因密码的底层共性法则。

近日,由中国科学院多学科交叉钻研团队组成的“指南针联盟”(Xcompass Consortium)在人工智能赋能性命科学钻研方面取得了重要突破,成功构建了世界首个跨物种性命根本大模型——GeneCompass。 该模型集成了人和小鼠超过1.26亿个单细胞的转录组数据、融合了包括启动子序列和基因共表达关系等四种先验学问、根本模型参数量达到1.3亿,实现了对基因表达调控法则的全景式进修明白,同时支持细胞状态变化预测及多种性命过程的精确分析,展示了人工智能赋能性命科学钻研的巨大潜力。

该钻研以《GeneCompass: Deciphering Universal Gene Regulatory Mechanisms with Knowledge-Informed Cross-Species Foundation Model》为题,发布在bioRxiv上。

中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

论文链接:https://www.biorxiv.org/content/10.1101/2023.09.26.559542v1

另外,该团队还同步发布了一个鉴于转嫁进修的基因调控收集生成模型, CellPolaris,该模型能够准确识别细胞运气转换核心因子,并具有转录因子扰动模拟能力。

该钻研以《CellPolaris: Decoding Cell Fate through Generalization Transfer Learning of Gene Regulatory Networks》为题,发布在bioRxiv上。

中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

论文链接:https://www.biorxiv.org/content/10.1101/2023.09.25.559244v1

GeneCompass:首个跨物种性命根本大模型

中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

哺乳动物个体一般包含数万到数十万亿个细胞。尽管个体中的所有细胞均含有相同的基因序列,但是每个细胞的运气和功能却因其独特的时空背景而千差万别。如此精密的性命过程是由复杂的基因表达调控系统所控制。

探索性命普遍存在的基因调控体制可增进明白性命的本质法则并创新各种重大疾病的诊疗手段。然而传统的钻研方法通量低且集中在单个模式生物上,难以揭示复杂基因调控体制。

近年来,单细胞组学技术的突破产生了大量分歧类型细胞的基因表达谱数据,为解读基因-基因相互作用提供了数据根本。同时深度进修的发展,尤其是生成式大模型的出现,可以综合汇总海量分歧细胞状态下的数据进修非线性调控体制,为性命科学钻研带来了前所未有的机遇。

首个1.2亿细胞量+1.3亿参数的跨物种性命根本大模型

目前,全世界范围内在单一物种上已获得的单细胞转录组数据规模仅为千万级别,难以充分支撑用于剖析复杂性命过程的性命根本大模型训练。

该团队收集了分歧物种的单细胞转录组开源数据,经过筛选、清洗、均一化等预处理流程,建立了目前已知最大规模、包含小鼠和人类的超过1.26亿细胞的高质量训练数据集scCompass-126M;采用了鉴于Transformer自注意力体制的深度进修架构,可捕获分歧基因之间在分歧细胞背景下的长程动态关联关系,模型参数规模达1.3亿。为实现针对性命过程的高分辨率刻画,GeneCompass首次将基因编号和表达量进行双重编码,从而能够有效、灵敏地提取基因之间的关联关系。这使GeneCompass对各种特定条件,如细胞类型和扰动状态的基因-基因相互作用提供更加精确分析。 

先验学问嵌入预训练有效提升模型机能

模型通过有效整合启动子序列、已知基因调控收集、基因家族信息和基因共表达关系四种生物学先验学问,加入人类注释信息编码,提高了对生物数据间复杂特征关联关系的明白。通过训练整合分歧物种的数据信息及先验学问,GeneCompass有望提高传统生物学钻研的效率和精确性为尚无法突破的复杂性命科学难题带来新的切入点。

中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

GeneCompass融入四种生物学先验学问。

规模效应提示模型训练捕获生物进化保守法则

团队发现对大规模跨物种数据所获得的预训练模型对于单物种的子任务符合尺度定律(scaling law):即较大规模的多物种预训练数据量较单一物种数据量产生更优异的预训练表征,并进一步提高下游任务的机能。这一发现显示了物种间存在保守的基因调控法则,并且这些法则能够被预训练模型进修明白。这同时预示着随物种和数据的扩展,模型机能有望不断提升。

中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

增加跨物种数据规模可提升模型机能

多任务机能优势展现根本大模型强大泛化能力

作为迄今为止最大规模的、具有学问嵌入的跨物种预训练性命根本大模型,GeneCompass可实现多个跨物种下游任务的转嫁进修,并在细胞类型注释、定量基因扰动预测、药物敏感性分析等方面,相比已有方法取得更优机能。这充分展示了鉴于多物种无标注大数据预训练,再利用分歧子任务数据进行模型微调的策略优势,有望成为实现基因-细胞特征相关联的各种生物问题分析预测的通用解决方案。

中国科学院团队两篇齐发:首个跨物种性命根本大模型+新型细胞运气预测AI模型发布

CellPolaris:转嫁进修解码基因调控收集,预测细胞运气变化

利用转嫁进修生成细胞特异的基因调控收集

团队还开发了一套鉴于泛化转嫁进修的基因调控收集构建AI模型,称为CellPolaris。模型首先整理数百套匹配细胞场景下的转录组及染色质可及性数据,构建高质量的基因调控收集,随后通过泛化转嫁进修模型,仅使用转录组数据生成更多细胞场景下的基因调控收集。进而利用生成的高可信度基因调控收集,开发了细胞运气转换核心转录因子识别工具以及鉴于概率图模型的转录因子扰动模拟工具。该模型能够有效识别细胞运气转换核心因子,并实现转录因子扰动的模拟,在基因调控体制剖析及致病基因发现方面均有重要应用价值。

,时长00:09

模拟胎盘发育过程中转录因子敲除对细胞运气的影响

CellPolaris模型产生的基因调控收集,提供了丰富的分子相互作用信息,可以作为深度进修大模型的先验学问。而深度进修大模型产生的低维嵌入向量,将为基因调控体制剖析及致病基因发现提供重要信息。

上述两项钻研由“指南针联盟”团队完成,“指南针联盟”团队目前主要由中国科学院动物钻研所联合计算机收集信息中心,自动化钻研所,计算技术钻研所,数学与系统科学钻研院等组成,联盟的目标是建立数智驱动的性命科学钻研新范式,剖析性命的本质法则。

人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]

给TA打赏
共{{data.count}}人
人已打赏
AI

树莓派5来了:算力提升2.5倍,撑持PCIe,438元起售

2023-9-29 12:10:00

AI

斯坦福NLP课程XCS224U视频全部放出,干货满满,速来听讲

2023-10-7 11:45:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索