编辑 | 白菜叶
人工智能已经进入我们的日常生活。它可以是 ChatGPT,也可以是人工智能生成的比萨饼和啤酒广告。虽然我们不能相信人工智能是完美的,但事实证明,有些时候我们根本无法相信人工智能。
冷泉港实验室(CSHL)西蒙斯定量生物学中心的助理教授 Peter Koo 发现,在分析 DNA 时,使用流行的计算工具来解释 AI 预测的科学家会收集到太多的「噪音」或额外信息。他找到了解决这个问题的方法。
他的团队确定了一个以前被忽视的归因噪声源,该噪声源源于深度神经网络(DNN)如何处理单热编码 DNA。研究人员证明这种噪音在各种基因组 DNN 中普遍存在,并引入了一种统计校正来有效地减少它,从而产生更可靠的归因图。
该研究以「Correcting gradient-based interpretations of deep neural networks for genomics」为题,于 2023 年 5 月 9 日发布在《Genome Biology》。
深度神经网络 (DNN) 在基因组学中各种基于序列的预测任务中表现出令人印象深刻的性能,将 DNA 序列作为输入并预测实验测量的调节功能。为了深入了解 DNN 学习的特征,事后归因方法为给定序列中的每个核苷酸提供了重要性分数;它们通常揭示具有生物学意义的模式,例如对基因调控至关重要的转录因子结合基序。归因方法还提供了一种自然的方法来量化单核苷酸突变的影响大小,包括观察到的和反事实的,这有助于确定与疾病相关的变异的优先级。
一些最流行的归因方法是基于梯度的,其中使用输出相对于输入的偏导数,包括显著图、积分梯度、SmoothGrad 和预期梯度。然而,在实践中,归因方法通常会产生带有虚假重要性分数的嘈杂特征重要性图。这使得很难推断出哪些模式驱动模型预测的假设,然后可以通过精心设计的计算机实验来验证这些假设。
许多影响归因图有效性的因素已经根据经验确定,例如学习函数的平滑特性和学习(非)稳健特征。然而,尚未完全了解影响归因图的所有噪声源的来源。
在这里,当输入特征是分类变量时,西蒙斯定量生物学中心的研究人员在输入梯度中识别出一个先前被忽视的噪声源。然后,他们提出了一种简单但有效的统计校正,并证明它改进了跨各种 DNN 的基于归因的解释,这些 DNN 涵盖监管基因组学中的广泛预测任务。
Koo 说:「深度神经网络正在整合这种随机行为,因为它在任何地方都学习一个函数。但 DNA 只在其中的一个小子空间中。它引入了很多噪音。因此我们表明,这个问题实际上确实在各种著名的 AI 模型中引入了很多噪音。」
图示:梯度校正性能。(来源:论文)
然而,在个别情况下,即使观察到较大的非单纯形梯度,校正也可能很微妙。此外,许多大角度可能与具有低属性分数的位置相关联,因此可能不会导致明显的变化。
有趣的是,研究人员观察到最大的修正发生在给定位置的归因分数全部为正或全部为负时。在这种情况下,梯度校正会集中并降低属性分数。
另一方面,仅基于前向传播的归因方法(例如计算机诱变)不需要这种校正,因为 DNN 脱离单纯形的行为不会影响预测;所有数据,包括测试数据,都存在于单纯形中。另外,虽然该团队在使用 DNA 序列训练的 DNN 上展示了梯度校正,但它应该扩展到基于分类输入变量的其他数据类型,例如蛋白质和 RNA 序列。
图示:可视化梯度校正。(来源:论文)
展望未来,探索可以直接解决 DNN 的非单纯形函数行为的训练策略将是有益的,例如混合、流形混合和随机平滑。重要的是,梯度校正仅解决与单纯形的不稳定函数行为相关的噪声。此更正不是「灵丹妙药」;它无法纠正影响归因分析的其他噪声源。
总而言之,通过应用 Koo 的计算校正,科学家们可以更准确地解释 AI 的 DNA 分析。Koo 说:「我们最终看到的站点变得更加清晰干净,其他区域的杂散噪音也更少。被认为非常重要的一次性核苷酸突然消失了。」
Koo 认为噪音干扰的影响不仅仅局限于 AI 驱动的 DNA 分析仪。他认为这是涉及相似数据类型的计算过程中普遍存在的问题。请记住,噪音无处不在。值得庆幸的是,这个新工具可以帮助科学家走出黑暗,走向光明。
论文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-023-02956-3
相关报道:https://phys.org/news/2023-06-digital-dark-clouding-ai-genome.html