AI在线 AI在线

我国团队研发,全球首个基因挖掘大模型 SYMPLEX 问世

作者:汪淼
2025-04-14 11:51
随着生物测序技术突破,全球天然基因库已积累数十亿量级序列,其中蕴藏海量高价值功能基因。然而,当前仅有少数明星基因被深度挖掘,绝大多数仍处于“沉睡”状态。
感谢随着生物测序技术突破,全球天然基因库已积累数十亿量级序列,其中蕴藏海量高价值功能基因。然而,当前仅有少数明星基因被深度挖掘,绝大多数仍处于“沉睡”状态。

4 月 9 日,中国科学院深圳先进技术研究院定量合成生物学全国重点实验室、合成生物学研究所娄春波团队与北京大学定量生物学中心钱珑团队合作在国际学术期刊 Science Advances 上发表研究论文,报道了全球首个面向合成生物学元件挖掘与生物制造应用的大语言模型 ——“SYMPLEX”,并将 SYMPLEX 模型应用于 mRNA 加帽酶基因的挖掘,展示了大语言模型赋能生物制造的巨大潜力。

图片

该模型通过融合领域大语言模型训练、合成生物专家知识对齐和大规模生物信息分析,实现了从海量文献中自动化挖掘功能基因元件,并精准评估其工程化应用潜力

研究团队将 SYMPLEX 应用于 mRNA 疫苗生物制造关键酶 —— 加帽酶的挖掘,成功获得多种高性能新型加帽酶。第三方公司实验验证显示,这些酶在催化效率上超越国际头部企业 New England Biolabs(NEB)商业化加帽酶 2 倍以上,显著提升了 mRNA 疫苗生产率和成本效益。

研究团队创造性地将大型语言模型(LLM)与结构化生物知识库深度融合,开发出 SYMPLEX 智能基因挖掘平台。

SYMPLEX 是强大的功能基因搜索引擎,通过自动化阅读和理解千万级体量的生物学文献,在基因、功能和知识水平上提取分析文献内容,并与专家数据库进行概念对齐、交互和基于先进生物信息技术的统计模式生成,从而提供证据链完整的高质量候选基因集合。

SYMPLEX 不仅有效规避了大语言模型幻觉,还能自动生成基因功能相关的细粒度知识树,引导科学家探索广泛的生物机制和分子过程。

SYMPLEX 大模型的技术路线及其与传统基因挖掘流程对比

▲ SYMPLEX 大模型的技术路线及其与传统基因挖掘流程对比

对比结果表明,SYMPLEX 大模型在挖掘基因的深度、数量和多样性上均显著优于传统生物信息学方法,其挖掘的基因多样性也超越了现有蛋白质功能预测模型的边界。

SYMPLEX 挖掘结果多样性对比和细粒度知识树生成

▲ SYMPLEX 挖掘结果多样性对比和细粒度知识树生成

目前,SYMPLEX 在线交互式平台已上线供研究人员免费使用。平台采用模块化设计,提供三个核心功能:

  • (1)文献智能提取引擎 PubEngine:支持高通量的文献智能检索分析与可视化交互。

  • (2)基因功能标注系统 GeneTagger:实现从分子机制到生物过程的细粒度自动化基因与功能提取。

  • (3)标准化知识中枢 GeneNorm:实现与专家知识库的概念对齐与标准化,支持知识树构建和功能模式识别。

AI在线附论文链接:

https://www.science.org/doi/full/10.1126/sciadv.adt0402

相关资讯

北大研发全球首个基因挖掘大模型 SYMPLEX,助力生物制造新时代

近日,北京大学定量生物学中心的钱珑团队成功研发出全球首个专门用于功能基因挖掘的大语言模型 SYMPLEX。 这一创新的模型能够从海量的生物文献中高效筛选出具有特定功能的关键基因,推动生物科技的发展。 SYMPLEX 的问世,标志着基因挖掘技术进入了一个全新的阶段。
4/14/2025 11:01:07 AM
AI在线

30倍于传统方法,中国科学院团队Transformer深度学习模型预测糖-蛋白质作用位点

糖类是自然界中最丰富的有机物质,对生命至关重要。了解糖类如何在生理和病理过程中调节蛋白质,可以为解决关键的生物学问题和开发新的治疗方法提供机遇。然而,糖类分子的多样性和复杂性,对实验识别糖-蛋白质结合以及相互作用的位点提出了挑战。在这里,中国科学院团队开发了一种深度学习模型 DeepGlycanSite,它能够准确预测给定蛋白质结构上的糖结合位点。DeepGlycanSite 将蛋白质的几何和进化特征融入具有 Transformer 架构的深度等变图神经网络中,其性能显著超越了之前的先进方法,并能有效预测各种糖类分
7/1/2024 11:04:00 AM
机器之心

全球首个多模态地理科学大模型“坤元”发布,中国科学院打造

中国科学院地理科学与资源研究所、中国科学院青藏高原研究所、中国科学院自动化研究所等单位 9 月 19 日正式发布全球首个多模态地理科学大模型“坤元”(Sigma Geography)。据介绍,该大模型是专注于地理科学的专业语言大模型,具备处理地理科学相关问题的专业能力。研发团队完成了地理学全谱系高质量语料库构建、地理科学语言大模型构建、地理科学研究智导平台研发等工作,让“坤元”具备“懂地理”“精配图”“知人心”“智生图”等特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图
9/19/2024 10:49:11 AM
汪淼