晚上就应该睡觉?新的机器学习技术探索昼夜节律

编辑 | 雪松昼夜节律,如睡眠-觉醒周期,是大多数生物与生俱来的,对地球上的生命至关重要。昼夜时钟在 24 小时日夜周期中协调生物的各项生理变化,会间接影响我们人类的体能水平、健康程度、生存能力。同样,将新陈代谢与日出落日同步等情况也存在于植物中,准确的生物钟有助于调节开花。了解昼夜节律,于植物而言,有助于提高植物的生长和产量;于人类而言,则有可能揭示出治疗疾病的新途径。IBM欧洲研究所与厄尔汉姆研究所的合作团队,描述了一系列基于人工智能(AI)和机器学习(ML)的方法。这些方法可以进行更具成本效益的分析并深入了解

编辑 | 雪松

昼夜节律,如睡眠-觉醒周期,是大多数生物与生俱来的,对地球上的生命至关重要。昼夜时钟在 24 小时日夜周期中协调生物的各项生理变化,会间接影响我们人类的体能水平、健康程度、生存能力。

同样,将新陈代谢与日出落日同步等情况也存在于植物中,准确的生物钟有助于调节开花。了解昼夜节律,于植物而言,有助于提高植物的生长和产量;于人类而言,则有可能揭示出治疗疾病的新途径。

IBM欧洲研究所与厄尔汉姆研究所的合作团队,描述了一系列基于人工智能(AI)和机器学习(ML)的方法。这些方法可以进行更具成本效益的分析并深入了解昼夜节律的调节和功能。最具创新性的是,该团队仅使用DNA序列特征来进行准确的昼夜节律基因表达预测。

该研究以「Interpreting machine learning models to investigate circadian regulation and facilitate exploration of clock function」为题,于2021年8月10日发布在《PNAS》杂志。

晚上就应该睡觉?新的<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>技术探索昼夜节律

生物钟是地球生命对环境的重要适应。在这里,研究人员使用机器学习来预测拟南芥中复杂、时间和昼夜节律的基因表达模式。最重要的是,该方法使用从公共基因组资源从头生成的 DNA 序列特征对昼夜节律基因进行分类;这意味着该方法的下游应用,无需实验工作以及先验知识。

该团队使用特定转录本的本地模型解释,对 DNA 序列特征进行排序,并得出每个转录本潜在昼夜节律调节机制的详细概况。此外,该方法还可以使用 DNA 序列特征(局部的、解释性的、排序的)来区分转录表达的时间阶段,揭示昼夜节律集中隐藏的子集。「模型解释/解释」提供了方法学进步的支柱,从而可以深入了解生物过程和实验设计。

晚上就应该睡觉?新的<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>技术探索昼夜节律

图示:拟南芥昼夜节律/非昼夜节律比较 ML 二元分类,具有 12 个转录组时间点。(来源:论文)

当使用减少数量的转录组时间点预测昼夜节律转录时,该团队使用模型解释来优化采样策略。最后,从单个转录组时间点预测昼夜节律时间,得出对准确预测最有影响的标记转录本;这可以促进从现有数据集中识别改变的时钟功能。

晚上就应该睡觉?新的<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>技术探索昼夜节律

图示:拟南芥昼夜节律/非昼夜节律 ML 二元分类,以减少转录组时间点的数量。(来源:论文)

该研究描述了一系列基于 ML 的方法,这些方法可以实现对拟南芥昼夜节律调节的成本效益分析和洞察。当使用少量 mRNA 测序(mRNA-seq)时间点预测昼夜节律转录本时。尽管在选择最少三个时间点时会丢失信息并导致 F1 分数下降,但与现有方法相比,该方法不仅提高了准确性,而且还使用模型解释来优化采样策略。研究人员确定的一些最准确、减少的采样策略与现有方法一致(例如,在一天中均匀分布的时间点以最有效地捕获正弦波曲线)。

晚上就应该睡觉?新的<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>技术探索昼夜节律

图示:拟南芥昼夜节律/非昼夜节律 ML 二元分类使用 k-mer 配置文件。(来源:论文)

最重要的是,仅使用 DNA 序列特征进行准确的昼夜节律分类,不需要调节元件或转录组数据的先验知识。这提供了优于现有方法的优势,不仅可以预测表达,还可以同时破译调节途径;由于使用可解释的 AI 算法,所以在进行预测时便可即时定义调节元件。使用人工智能,从头自动定义转录本的这些特征配置文件,并确定其优先级;这项工作通过有可能支持基因组的功能注释和精准农业。这个应用程序可以重新定义「如何生成可测试的假设」,从而理解基因表达控制。

该团队利用新方法预测昼夜节律时间,同时使用模型解释来推导拟南芥标记转录本。这些选定的转录本可用于测试现有和新兴拟南芥数据集中的单个数据点,以研究基因型、处理和环境条件如何影响生物钟功能。此外,由于转录组数据集的时间成本和金钱成本很高,因此在单个时间点内减少对标记基因的分析,可以节省大量资源。

晚上就应该睡觉?新的<mark data-type=tech_methods data-id=1a0e9c5e-6502-4cd7-8683-6b5ca6c48be2>机器学习</mark>技术探索昼夜节律

图示:在基于 ML DNA 序列的分类后研究拟南芥昼夜节律 TP 转录本。(来源:论文)

文章作者 Gardiner 博士补充道:「在作物中,昼夜节律对保持健康生长和发育至关重要;农业科学家和农民使用该模型了解植物的内在节律,可能会提高作物产量。同时,我们现在正在研究不同的物种,研究生物钟及其与人类疾病的联系,例如,生物钟失调与从抑郁症到癌症等一系列疾病有关。」

论文链接:https://www.pnas.org/content/118/32/e2103070118

相关报道:https://phys.org/news/2021-08-machine-technology-explores-circadian-rhythms.html

相关资讯

OpenAI 语音转写工具 Whisper 被曝存在重大缺陷:会凭空生成大段虚假内容

当地时间 27 日,据美联社报道,超过十位软件工程师、开发人员和学术研究人员称,OpenAI 的语音转写工具 Whisper 存在一个重大缺陷:有时会凭空生成大段甚至整句虚假内容。 这些专家指出,这些生成的文本(AI在线注:业内通常称为“AI 幻觉”)可能涉及种族言论、暴力措辞,甚至杜撰的医疗建议。 专家们认为,这一问题尤其令人担忧,因为 Whisper 已被广泛应用于全球多个行业,包括用于翻译和转录访谈内容、生成常见消费科技文本及制作视频字幕。

只需一行代码,即可轻松驱散基因组分析中DNN产生的数字噪音

编辑 | 白菜叶人工智能已经进入我们的日常生活。它可以是 ChatGPT,也可以是人工智能生成的比萨饼和啤酒广告。虽然我们不能相信人工智能是完美的,但事实证明,有些时候我们根本无法相信人工智能。冷泉港实验室(CSHL)西蒙斯定量生物学中心的助理教授 Peter Koo 发现,在分析 DNA 时,使用流行的计算工具来解释 AI 预测的科学家会收集到太多的「噪音」或额外信息。他找到了解决这个问题的方法。他的团队确定了一个以前被忽视的归因噪声源,该噪声源源于深度神经网络(DNN)如何处理单热编码 DNA。研究人员证明这种

70 亿参数训练,从DNA、RNA、蛋白质到全基因组,生物学通用大模型新标杆

编辑 | 萝卜皮基因组是完整编码 DNA、RNA 和蛋白质的序列,这些序列协调整个生物体的功能。机器学习的进步与全基因组的海量数据集相结合,可以实现生物基础模型,加速复杂分子相互作用的机械理解和生成设计。斯坦福大学(Stanford University)和 Arc Institute 的研究人员开发了 Evo,这是一种基因组基础模型,可进行多模态和多尺度学习,能完成从分子到基因组规模的预测和生成任务。使用基于深度信号处理进步的架构,该团队将 Evo 扩展到 70 亿参数,单核苷酸字节分辨率的上下文长度为 131