新AI模型提高与疾病相关基因组学的预测能力

为了了解DNA与疾病的关系,美国洛斯阿拉莫斯国家实验室的科学家开发了第一个多模态深度学习模型EPBDxDNABERT-2,该模型能够利用DNA“呼吸”,即双螺旋结构自发打开和关闭,来确定转录因子(调节基因活动的蛋白质)之间的精确关系。 该模型有可能帮助设计用于治疗源于基因活性疾病的药物。 与DNA链结合的转录因子蛋白的表示洛斯阿拉莫斯国家实验室研究员、该论文的第一作者Anowarul Kabir说:“转录因子有很多种,人类基因组的规模大得令人生畏。

为了了解DNA与疾病的关系,美国洛斯阿拉莫斯国家实验室的科学家开发了第一个多模态深度学习模型EPBDxDNABERT-2,该模型能够利用DNA“呼吸”,即双螺旋结构自发打开和关闭,来确定转录因子(调节基因活动的蛋白质)之间的精确关系。该模型有可能帮助设计用于治疗源于基因活性疾病的药物。

与DNA链结合的转录因子蛋白的表示与DNA链结合的转录因子蛋白的表示

洛斯阿拉莫斯国家实验室研究员、该论文的第一作者Anowarul Kabir说:“转录因子有很多种,人类基因组的规模大得令人生畏。”“因此,有必要找出哪种转录因子与超长DNA结构上的哪个位置结合。我们试图用人工智能,特别是深度学习算法来解决这个问题。”

基于DNA训练的深度学习模型

DNA以相当于30亿个英文字母的数量写入每个人类细胞,为人类生命的生长和维持提供了蓝图。转录因子结合到DNA的某些部分并影响基因表达的调控:单个基因如何为细胞的发育和功能提供特定的指令。因为这种表达可以在疾病中表现出来,如癌症,预测与特定基因位置结合的转录因子可能对药物开发有影响。

研究小组使用的基础模型是在DNA序列上训练的。该团队构建了一个DNA模拟程序,该程序捕获了大量的DNA动态并将其与基因组基础模型集成,从而产生了EPBDxDNABERT-2,该程序能够处理染色体上的基因组序列,并将相应的DNA动态作为输入。一个这样的输入-DNA呼吸,或DNA双螺旋结构的局部和自发打开和关闭,与转录活性相关,如转录因子结合。

洛斯阿拉莫斯国家实验室的研究员Manish Bhattarai说:“DNA呼吸特征与DNABERT-2基础模型的整合大大增强了转录因子结合的预测。”“我们将DNA编码片段作为模型的输入,并询问模型是否在许多细胞系中与转录因子结合。这些结果提高了特定基因位置与许多转录因子结合的预测概率。”

使用Venado运行AI算法

该团队在实验室最新的超级计算机Venado上运行了他们的深度学习模型,Venado将中央处理单元与图形处理单元相结合,以驱动人工智能功能。深度学习模型的工作方式类似于大脑的神经网络,结合图像和文本,揭示复杂的模式来生成预测和见解。

新AI模型提高与疾病相关基因组学的预测能力

为了训练模型,研究小组使用了690个实验结果的基因测序数据,包括161种不同的转录因子和91种人类细胞类型。他们发现,EPBDxDNABERT-2显著提高了660多种转录因子结合的预测,在一个关键指标上提高了9.6%。从受控环境中的实验中提取的体外数据集的进一步实验补充了自然界数据集,或直接从活体生物(如小鼠)研究中提取的数据。

研究小组发现,虽然单独DNA呼吸可以几乎准确地估计转录活性,但多模态模型可以提取结合基序,即转录因子结合的特定DNA序列,这是解释转录过程的关键因素。

Bhattarai说:“正如它在多个不同数据集上的表现所证明的那样,我们的多模态基础模型表现出了多功能性、鲁棒性(健壮性)和有效性。”“该模型标志着计算基因组学的重大进步,为分析复杂的生物机制提供了一种复杂的工具。”

相关资讯

面对人工智能和深度学习,设计师到底要如何自处?

一键生成广告、插画、布局、视觉稿,这样的技术和产品在某种意义上几乎已经在我们眼前了。 建立一个真正称得上是拥有智能的系统,针对特定受众的需求来生成素材,理解人类的情感和语义中的潜台词,明白行为的概念和美的意义,这仍然还太远。 不过,建立一个专门的深度学习系统,自动化的设计流程,能够让设计师从一部分完全手动的工作中解放出来,这是完全可行的。 实际上已经有很多新兴的设计素材和设计工具在做这个事情了。 比如下面这些以深度学习为驱动力的创新的、自动化设计工具: Colormind.ioColormind 致力于让色彩理论真

战胜柯洁的深度学习,有可能取代设计师吗?

最近看到在「Baidu Create 2019」的百度 AI 交互设计论坛上,设计师分享了他们的最新成果:百度人工智能交互设计院与百度研究院商业智能实验室合作,基于百度自主研发、开源开放的深度学习框架飞桨(PaddlePaddle),让系统在每个模块组合形成的不同界面中找到最优解,在模型框架内给出任何一种设计,机器都能快速预测用户的偏好结果,设计师将以此为基础给出符合用户喜好与使用习惯的最佳解决方案。 设计存在的问题 现在的深度学习能用于界面设计吗?能基于深度学习给出符合用户喜好与使用习惯的最佳解决方案吗?这是 A

微软发布首个大气AI基础模型Aurora

编辑 | ScienceAI2023 年 11 月,风暴「夏兰」(Ciarán)袭击欧洲西北部,造成严重破坏。与风暴 Ciarán 相关的低压系统为英格兰创下了新纪录,这是一次极为罕见的气象事件。那场风暴的强度让许多人措手不及,暴露了当前天气预报模型的局限性,并突显出面对气候变化需要更准确的预测。当大家努力应对后果时,一个紧迫的问题出现了:我们如何才能更好地预测和准备应对这种极端天气事件?最近的一项研究表明,即使是最先进的 AI 天气预测模型在捕捉风暴 Ciarán 的快速增强和峰值风速方面也面临的挑战。为了帮助应