湖畔实验室AI加速棉花品种改良:解析近3亿DNA甲基化数据,找到43个关键基因

棉花产量与纤维品质如何受到DNA甲基化调控? 在AI的帮助下,中国棉花育种专家成功破译这一“密码本”,并从中找出有望改良棉花品种的关键基因位点。 近日,由浙江大学棉花精准育种团队、中国农科院生物技术所和湖畔实验室(阿里巴巴达摩院)智慧育种团队组成的联合科研团队,综合运用遗传学、生物大数据和AI技术,构建了涵盖207个品种的棉花全基因组DNA甲基化图谱,鉴定2.87亿个单甲基化多态性(SMP)位点,规模为目前所有作物之最。

棉花产量与纤维品质如何受到DNA甲基化调控?在AI的帮助下,中国棉花育种专家成功破译这一“密码本”,并从中找出有望改良棉花品种的关键基因位点。

近日,由浙江大学棉花精准育种团队、中国农科院生物技术所和湖畔实验室(阿里巴巴达摩院)智慧育种团队组成的联合科研团队,综合运用遗传学、生物大数据和AI技术,构建了涵盖207个品种的棉花全基因组DNA甲基化图谱,鉴定2.87亿个单甲基化多态性(SMP)位点,规模为目前所有作物之最。联合团队从中发现43个潜在参与纤维发育的eQTM基因,为棉花育种提供重要的候选基因列表。相关论文发表在国际顶级期刊《细胞研究》(Cell Research)上。

棉花是全球最大的天然纺织纤维来源,需要通过不断聚合优异的基因组遗传位点,进行品种改良。在AI、大数据等技术加持下,农业正在步入“智慧育种”时代,通过综合作物基因型数据、表型数据和环境数据,预测作物性状,精准筛选出优异基因。

此次,联合科研团队聚焦DNA甲基化对作物的影响。DNA甲基化可以在不改变棉花DNA序列的情况下,影响棉花产量、纤维品质等农艺性状,并通过自然进化和人工选择传递。团队收集了207个品种的棉花全基因组甲基化测序数据、基因组测序数据、转录组测序数据,再结合农艺性状的表型数据,进行关联分析,首次构建起群体尺度的棉花全基因组DNA甲基化图谱,涵盖2.87亿个单甲基化多态性(SMP)位点。其中,仅甲基化测序数据就达到17TB。

湖畔实验室融合AI、并行计算等技术开发了一套新型算法,加速海量遗传数据的分析处理。湖畔实验室智慧育种团队负责人顾斐表示:“相比起传统方法,AI加成的分析计算速度提升近100倍,有助于开展亿级序列对比、群体变异分析和多组学关联分析,在数百个遗传变异、数万个基因以及数亿个甲基化位点之间建立起复杂的映射关系。”

联合科研团队进而首次绘制出与棉花纤维发育相关、独立于遗传因素的表观调控网络,揭示了43个潜在参与纤维发育的eQTM基因。其中一个位点已通过基因编辑实验,证实其调控棉花纤维长度的作用。此外,研究人员研发了深度学习模型DeepFDML,基于DNA甲基化位点附近的序列,预测影响基因表达的甲基化位点,未来有望发现更多具有育种价值的信息。

湖畔实验室AI加速棉花品种改良:解析近3亿DNA甲基化数据,找到43个关键基因

图说:群体单碱基DNA甲基化多态性的精准鉴定、调控网络解析与预测模型构建

浙江大学棉花精准育种团队方磊教授表示:“这项研究成果证明了DNA甲基化数据可作为育种资源,为棉花品种改良提供新的思路。依托生命科学+AI,育种家们将持续挖掘关键基因、预测农艺性状,加速培育‘超级’作物。”

据悉,湖畔实验室(数据科学与应用浙江省实验室)成立于2020年7月,依托阿里巴巴达摩院建设,聚焦数据科学领域的“数据智能”和“新型计算”两大方向。在智慧育种领域,湖畔实验室牵头研发全流程智慧育种平台,为育种家们提供包含育种数据管理和分析、计算加速、AI预测的“中央厨房”,大幅缩短培育新品种的周期。

相关资讯

AnchorDx通过基于深度学习的连续向量表示甲基化区域

编辑 | 萝卜皮基准医疗(AnchorDx)成立于 2015 年,是一家国际领先的采用甲基化高通量测序进行癌症早筛早诊产品开发的公司。创始人范建兵博士是基因检测领域的国际领军人物,拥有近 30 年从事人类基因组学、基因芯片(Microarrays)及高通量测序技术开发的经验。基准医疗是中国首家将 ctDNA 甲基化高通量测序技术用于肿瘤早诊的企业,并自主构建了全球最大的中国人群癌症早期甲基化数据库。自创立以来,基准医疗一直致力于自主开发真正具备临床价值的单癌种、多癌种乃至泛癌种早筛早诊产品,产品管线覆盖了包括肺癌、

中国农业大学发布“神农大模型 2.0”:覆盖育种、种植、养殖、农业遥感及气象

第八届智慧农业创新发展国际会议于 7 月 13 日在北京举办,中国农业大学在会议上发布了“神农大模型 2.0”。AI在线注意到,相比 1.0 版本,“神农大模型 2.0”在图像、声音、视频、文件等多模态交互及智能化推理方面获得提升,使大模型能够覆盖育种、种植、养殖、农业遥感及气象等多个农业应用场景。“神农大模型 2.0”含有四个专门化的农业专业大模型:“神农・固芯”育种大模型:结合多源高维数据推理分析,优化育种流程,减少盲目性与随机性,为种子筛选与适应性评估提供科学依据,保障粮食安全“神农・筑基”种植大模型:涵盖水

基于Transformer的新方法,可从纳米孔测序中准确预测DNA甲基化

编辑 | 萝卜皮DNA 甲基化在各种生物过程中起着重要作用,包括细胞分化、衰老和癌症发展。哺乳动物中最重要的甲基化是5-甲基胞嘧啶,主要发生在 CpG 二核苷酸的背景下。全基因组亚硫酸盐测序等测序方法可以成功检测 5-甲基胞嘧啶 DNA 修饰。然而,它们存在读取长度短的严重缺陷,可能会引入扩增偏差。新加坡 A*STAR 的研究人员开发了一种深度学习算法 Rockfish,该算法通过使用纳米孔测序(Oxford Nanopore Sequencing,ONT)显著提高了读取级 5-甲基胞嘧啶检测能力。该研究以「Roc