编辑 | 白菜叶
人工智能已经进入我们的日常生活。它可以是 ChatGPT,也可以是人工智能生成的比萨饼和啤酒广告。虽然我们不能相信人工智能是完美的,但事实证明,有些时候我们根本无法相信人工智能。
冷泉港实验室(CSHL)西蒙斯定量生物学中心的助理教授 Peter Koo 发现,在分析 DNA 时,使用流行的计算工具来解释 AI 展望的科学家会收集到太多的「乐音」或额外信息。他找到了解决这个问题的要领。
他的团队确定了一个以前被忽视的归因噪声源,该噪声源源于深度神经网络(DNN)如何处理单热编码 DNA。研究人员证明这种乐音在各种基因组 DNN 中普遍存在,并引入了一种统计勘正来有效地减少它,从而产生更可靠的归因图。
该研究以「Correcting gradient-based interpretations of deep neural networks for genomics」为题,于 2023 年 5 月 9 日发布在《Genome Biology》。
深度神经网络 (DNN) 在基因组学中各种鉴于序列的展望任务中表现出令人印象深刻的性能,将 DNA 序列作为输出并展望实验测量的调节功能。为了深入了解 DNN 进修的特色,事后归因要领为给定序列中的每个核苷酸提供了重要性分数;它们通常揭示具有生物学意义的模式,例如对基因调控至关重要的转录因子结合基序。归因要领还提供了一种自然的要领来量化单核苷酸突变的作用大小,包括视察到的和反事实的,这有助于确定与疾病相关的变异的优先级。
一些最流行的归因要领是鉴于梯度的,其中使用输出相对于输出的偏导数,包括显著图、积分梯度、SmoothGrad 和预期梯度。然而,在实践中,归因要领通常会产生带有虚假重要性分数的嘈杂特色重要性图。这使得很难推断出哪些模式驱动模型展望的假设,然后可以通过精心设计的计算机实验来验证这些假设。
许多作用归因图有效性的因素已经根据经验确定,例如进修函数的平滑特性和进修(非)稳健特色。然而,尚未完全了解作用归因图的所有噪声源的来源。
在这里,当输出特色是分类变量时,西蒙斯定量生物学中心的研究人员在输出梯度中识别出一个先前被忽视的噪声源。然后,他们提出了一种简单但有效的统计勘正,并证明它改进了跨各种 DNN 的鉴于归因的解释,这些 DNN 涵盖监管基因组学中的广泛展望任务。
Koo 说:「深度神经网络正在整合这种随机举动,因为它在任何地方都进修一个函数。但 DNA 只在其中的一个小子空间中。它引入了很多乐音。因此我们表明,这个问题实际上确实在各种著名的 AI 模型中引入了很多乐音。」
图示:梯度勘正性能。(来源:论文)
然而,在个别情况下,即使视察到较大的非单纯形梯度,勘正也可能很微妙。此外,许多大角度可能与具有低属性分数的位置相关联,因此可能不会导致明显的变化。
有趣的是,研究人员视察到最大的修正发生在给定位置的归因分数全部为正或全部为负时。在这种情况下,梯度勘正会集中并降低属性分数。
另一方面,仅鉴于前向传播的归因要领(例如计算机诱变)不需要这种勘正,因为 DNN 脱离单纯形的举动不会作用展望;所有数据,包括测试数据,都存在于单纯形中。另外,虽然该团队在使用 DNA 序列训练的 DNN 上展示了梯度勘正,但它应该扩展到鉴于分类输出变量的其他数据类型,例如蛋白质和 RNA 序列。
图示:可视化梯度勘正。(来源:论文)
展望未来,探索可以直接解决 DNN 的非单纯形函数举动的训练策略将是有益的,例如混合、流形混合和随机平滑。重要的是,梯度勘正仅解决与单纯形的不稳定函数举动相关的噪声。此更正不是「灵丹妙药」;它无法纠正作用归因分析的其他噪声源。
总而言之,通过应用 Koo 的计算勘正,科学家们可以更准确地解释 AI 的 DNA 分析。Koo 说:「我们最终看到的站点变得更加清晰干净,其他区域的杂散乐音也更少。被认为非常重要的一次性核苷酸突然消失了。」
Koo 认为乐音干扰的作用不仅仅局限于 AI 驱动的 DNA 分析仪。他认为这是涉及相似数据类型的计算过程中普遍存在的问题。请记住,乐音无处不在。值得庆幸的是,这个新工具可以帮助科学家走出黑暗,走向光明。
论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02956-3
相关报道:https://phys.org/news/2023-06-digital-dark-clouding-ai-genome.html