基因 - AI在线

分类准确率达99%，山大团队提出基于对比学习的基因数据分类方法

编辑 | 萝卜皮深度神经网络模型的快速进步显著增强了从微生物序列数据中提取特征的能力，这对于解决生物学挑战至关重要。然而，标记微生物数据的稀缺性和复杂性给监督学习方法带来了巨大的困难。为了解决这些问题，山东大学的研究人员提出了 DNASimCLR，这是一个专为高效基因序列数据特征提取而设计的无监督框架。

登Nature，AI设计DNA开关，MIT团队实现精确的细胞控制

编辑 | 萝卜皮近年来，基因编辑技术以及各种基因治疗方法使科学家能够改变活细胞内的基因。然而，只影响特定细胞类型或组织中的基因，而不是影响整个生物体的基因，一直很困难。部分原因是人们对控制基因表达和抑制的 DNA 开关 [即顺式调控元件 (CRE）] 的理解仍面临挑战。

效率提高近百倍，山大团队AI新方法解析复杂器官空间组学，登Nature子刊

编辑 | 萝卜皮空间组学技术以细胞和亚细胞分辨率解析复杂器官的功能组件。山东大学的研究团队引入了空间图傅里叶变换 (Spatial Graph Fourier Transform，SpaGFT)，并将图信号处理应用于各种空间组学分析平台，以生成可解释的表示。这种表示支持空间可变基因识别并改进基因表达推断，在分析人类和小鼠空间转录组数据方面优于现有工具，效率是现有工具的百倍。SpaGFT 可以识别人类淋巴结 Visium 数据中 B 细胞成熟的免疫区域，并使用内部人类扁桃体 CODEX 数据表征次级滤泡的变化。此外

新SOTA，仅几个标记基因即可自动标记，复旦大学开发空间转录组学语义注释贝叶斯框架

编辑 | 萝卜皮空间转录组学的出现，彻底改变了组织内基因表达的研究。然而，注释空间点的生物特性仍然是一个挑战。为了解决这个问题，复旦大学的研究人员引入了 Pianno，一个基于标记基因自动进行结构语义注释的贝叶斯框架。Pianno 在精确注释各种空间语义（从不同的解剖结构到复杂的肿瘤微环境）以及估计细胞类型分布（跨各种空间转录组学平台生成的数据）方面的卓越能力。研究人员使用 Pianno 结合聚类方法，揭示了人类新皮质深层 3 中区域和物种特异性的兴奋性神经元亚型，展示了人类新皮质的细胞进化过程。Pianno 作为

预测蛋白质共调控和功能，哈佛&MIT训练含19层transformer的基因组语言模型

编辑 | 萝卜皮破译基因及其基因组背景之间的关系，是理解和设计生物系统的基础。机器学习在从大量蛋白质序列数据集中学习序列-结构-功能范式背后的潜在关系方面表现出潜力。哈佛大学和麻省理工学院（MIT）的研究人员在数百万个宏基因组框架上训练基因组语言模型（gLM），从而分析基因之间潜在的功能和调控关系。gLM 能够学习「上下文」化的蛋白质嵌入，捕获基因组上下文以及蛋白质序列本身，并编码具有生物学意义和功能相关的信息（例如酶功能、分类学）。该研究以「Genomic language model predicts prot

优于人类专家，GPT-4 准确注释单细胞类型，成本低且稳健

编辑 | 萝卜皮GPT-4 是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生学院（Columbia University Mailman School of Public Health）的 Wenpin Hou 和杜克大学医学院（Duke University School of Medicine）的 Zhicheng Ji 证明，大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。「注释单个细胞的细胞类型的过程通常非常耗时，需要人类专家比较跨细胞簇的基

中国科学院团队两篇齐发：首个跨物种生命基础大模型+新型细胞命运预测AI模型发布

作者 | 中国科学院多学科交叉研究团队编辑 | ScienceAI被称为20世纪人类三大科学计划之一的人类基因组计划，拉开了深度解析生命奥秘的序幕。由于生命过程具有多维度、高度动态的特点，传统实验研究手段难以系统精准地破解基因密码的底层共性规律，亟需运用强大的计算技术来实现基因数据的表征建模与知识发现。当前，以大模型为核心的人工智能技术在计算机视觉和自然语言理解等领域引发了革命，展示出了对数据和知识的深入理解的能力，有望应用到生命科学研究领域，系统精准地破解基因密码的底层共性规律。近日，由中国科学院多学科交叉研究团

首个单细胞生物学基础大型语言模型，在超1000万个细胞进行预训练

编辑 | 紫罗生成式预训练模型在自然语言处理（NLP）和计算机视觉等领域取得了显著的成功。文本是由文字组成的，细胞可以用基因来表征。NLP 和单细胞生物学之间的另一个核心相似之处是，用于训练的公开可用的单细胞 RNA 测序（scRNA-seq）数据的规模庞大且不断增长。NLP 模型是否也能理解单细胞生物学的内在逻辑并发展「涌现思维」？近日，来自加拿大多伦多大学和彼得·蒙克心脏中心（Peter Munk Cardiac Centre）的研究人员，通过利用呈指数增长的单细胞测序数据，首次尝试对超过 1000 万个细胞进

山东大学团队提出基于异构图 Transformer 的单细胞生物网络推理

编辑 | 绿萝单细胞多组学 (scMulti-omics) 技术允许同时量化多种模态，以捕捉复杂分子机制和细胞异质性的复杂性。现有工具无法有效地推断出不同细胞类型中 active 生物网络以及这些网络对外部刺激的反应。在此，来自山东大学参与的多机构研究团队，开发了基于深度学习的单细胞数据多组学分析平台：DeepMAPS，用于从 scMulti-omics 进行生物网络推理。DeepMAPS 在异构图中对 scMulti-omics 进行建模，并使用多头图（multi-head graph）Transformer 以

可重用性报告：使用图神经网络捕获生物对象的属性及其关系

编辑 | 萝卜皮图神经网络（GNN），尤其是图卷积网络（GCN），已越来越多地用于对复杂交互进行建模。GNN 背后的一个基本思想是，对象的某些属性（由图中的节点表示）由与其直接或间接交互的对象的属性反映，其中直接交互由图中的边表示。在生物医学中，GNN 已被用于各种应用，例如预测蛋白质功能和药物-疾病关联。之前，Schulte-Sasse 团队提出了 GCN 在生物医学中的新用途：识别癌症基因。他们的方法 EMOGI（可解释的多组学图集成）通过在蛋白质-蛋白质相互作用（PPI）网络上聚合信息来集成多组数据。综合信息