只需一行代码,即可轻松驱散基因组分析中DNN产生的数字噪音

编辑 | 白菜叶人工智能已经进入我们的日常生活。它可以是 ChatGPT,也可以是人工智能生成的比萨饼和啤酒广告。虽然我们不能相信人工智能是完美的,但事实证明,有些时候我们根本无法相信人工智能。冷泉港实验室(CSHL)西蒙斯定量生物学中心的助理教授 Peter Koo 发现,在分析 DNA 时,使用流行的计算工具来解释 AI 预测的科学家会收集到太多的「噪音」或额外信息。他找到了解决这个问题的方法。他的团队确定了一个以前被忽视的归因噪声源,该噪声源源于深度神经网络(DNN)如何处理单热编码 DNA。研究人员证明这种

只需一行代码,即可轻松驱散基因组分析中DNN产生的数字噪音

编辑 | 白菜叶

人工智能已经进入我们的日常生活。它可以是 ChatGPT,也可以是人工智能生成的比萨饼和啤酒广告。虽然我们不能相信人工智能是完美的,但事实证明,有些时候我们根本无法相信人工智能。

冷泉港实验室(CSHL)西蒙斯定量生物学中心的助理教授 Peter Koo 发现,在分析 DNA 时,使用流行的计算工具来解释 AI 预测的科学家会收集到太多的「噪音」或额外信息。他找到了解决这个问题的方法。

他的团队确定了一个以前被忽视的归因噪声源,该噪声源源于深度神经网络(DNN)如何处理单热编码 DNA。研究人员证明这种噪音在各种基因组 DNN 中普遍存在,并引入了一种统计校正来有效地减少它,从而产生更可靠的归因图。

该研究以「Correcting gradient-based interpretations of deep neural networks for genomics」为题,于 2023 年 5 月 9 日发布在《Genome Biology》。

图片

深度神经网络 (DNN) 在基因组学中各种基于序列的预测任务中表现出令人印象深刻的性能,将 DNA 序列作为输入并预测实验测量的调节功能。为了深入了解 DNN 学习的特征,事后归因方法为给定序列中的每个核苷酸提供了重要性分数;它们通常揭示具有生物学意义的模式,例如对基因调控至关重要的转录因子结合基序。归因方法还提供了一种自然的方法来量化单核苷酸突变的影响大小,包括观察到的和反事实的,这有助于确定与疾病相关的变异的优先级。

一些最流行的归因方法是基于梯度的,其中使用输出相对于输入的偏导数,包括显著图、积分梯度、SmoothGrad 和预期梯度。然而,在实践中,归因方法通常会产生带有虚假重要性分数的嘈杂特征重要性图。这使得很难推断出哪些模式驱动模型预测的假设,然后可以通过精心设计的计算机实验来验证这些假设。

许多影响归因图有效性的因素已经根据经验确定,例如学习函数的平滑特性和学习(非)稳健特征。然而,尚未完全了解影响归因图的所有噪声源的来源。

在这里,当输入特征是分类变量时,西蒙斯定量生物学中心的研究人员在输入梯度中识别出一个先前被忽视的噪声源。然后,他们提出了一种简单但有效的统计校正,并证明它改进了跨各种 DNN 的基于归因的解释,这些 DNN 涵盖监管基因组学中的广泛预测任务。

Koo 说:「深度神经网络正在整合这种随机行为,因为它在任何地方都学习一个函数。但 DNA 只在其中的一个小子空间中。它引入了很多噪音。因此我们表明,这个问题实际上确实在各种著名的 AI 模型中引入了很多噪音。」

图片

图示:梯度校正性能。(来源:论文)

然而,在个别情况下,即使观察到较大的非单纯形梯度,校正也可能很微妙。此外,许多大角度可能与具有低属性分数的位置相关联,因此可能不会导致明显的变化。

有趣的是,研究人员观察到最大的修正发生在给定位置的归因分数全部为正或全部为负时。在这种情况下,梯度校正会集中并降低属性分数。

另一方面,仅基于前向传播的归因方法(例如计算机诱变)不需要这种校正,因为 DNN 脱离单纯形的行为不会影响预测;所有数据,包括测试数据,都存在于单纯形中。另外,虽然该团队在使用 DNA 序列训练的 DNN 上展示了梯度校正,但它应该扩展到基于分类输入变量的其他数据类型,例如蛋白质和 RNA 序列。

图片

图示:可视化梯度校正。(来源:论文)

展望未来,探索可以直接解决 DNN 的非单纯形函数行为的训练策略将是有益的,例如混合、流形混合和随机平滑。重要的是,梯度校正仅解决与单纯形的不稳定函数行为相关的噪声。此更正不是「灵丹妙药」;它无法纠正影响归因分析的其他噪声源。

总而言之,通过应用 Koo 的计算校正,科学家们可以更准确地解释 AI 的 DNA 分析。Koo 说:「我们最终看到的站点变得更加清晰干净,其他区域的杂散噪音也更少。被认为非常重要的一次性核苷酸突然消失了。」

Koo 认为噪音干扰的影响不仅仅局限于 AI 驱动的 DNA 分析仪。他认为这是涉及相似数据类型的计算过程中普遍存在的问题。请记住,噪音无处不在。值得庆幸的是,这个新工具可以帮助科学家走出黑暗,走向光明。

论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02956-3

相关报道:https://phys.org/news/2023-06-digital-dark-clouding-ai-genome.html

相关资讯

就像Word中的文本自动更正一样,大语言模型自动更正化学工艺流程图

编辑 | 紫罗过程工程是化学、物理、生物过程的设计、运行、控制、优化与强化。涉及大量的工业领域,如化学、材料、农业、制药、生物技术工业等。过程工程领域广泛使用过程流程图 (PFD) 以及过程和仪表图 (P&ID) 来表示过程流程和设备配置。然而,P&ID 和 PFD(以下称为流程图)可能包含导致安全隐患、低效操作和不必要费用的错误。纠正和验证流程图是一个繁琐的手动过程。来自荷兰代尔夫特理工大学的研究人员提出了一种新颖的生成人工智能方法,用于自动识别流程图中的错误并向用户建议更正,即自动更正流程图。受到用于人类语言语

NeurIPS 2023 | 「解释一切」图像概念解释器来了,港科大团队出品

Segment Anything Model(SAM)首次被应用到了基于增强概念的可解释 AI 上。你是否好奇当一个黑盒深度神经网络 (DNN) 预测下图的时候,图中哪个部分对于输出预测为「击球手」的帮助最大?香港科技大学团队最新的 NeurIPS2023 研究成果给出了他们的答案。论文:: Meta 的分割一切 (SAM) 后,港科大团队首次借助 SAM 实现了人类可解读的任意 DNN 模型图像概念解释器:Explain Any Concept (EAC)。你往往会看到传统的 DNN 图像概念解释器会给出这样的解

终于把神经网络中的知识蒸馏搞懂了!!!

大家好,我是小寒今天给大家分享神经网络中的一个关键知识点,知识蒸馏知识蒸馏是一种模型压缩方法,用于将大型神经网络(教师模型)中的知识转移到较小的神经网络(学生模型)中。 这一技术能够在保持或接近原始模型性能的情况下,显著减小模型的体积,从而提升推理效率。 知识蒸馏在很多场景中非常有用,尤其是在计算资源有限或需要部署到边缘设备的应用中。