能找神经网络Bug的可视化对象,Nature子刊收录

近来,《自然》子刊收录了一项能找出神经网络在哪里出错的钻研成果。钻研团队提供了一种利用拓扑学描述神经网络的判断结果与其分类之间关系的可视化方式。这项成果不妨资助钻研职员判断神经网络推理流程中发生混淆的具体情况,让人工智能系统更加透明。钻研职员发明,在神经网络推理的某些数据图中存在尖峰,这些尖峰往往出现在神经网络判断模糊与产生差错的地方。观察这些尖峰,钻研职员可以更容易发明人工智能系统中的故障点。从分析癌症突变的原因到决定谁应该获得贷款,在解决这些问题的流程中,仿照人脑的神经网络比人类表现得更加快速、准确、公正。但是

近来,《自然》子刊收录了一项能找出神经网络在哪里出错的钻研成果。钻研团队提供了一种利用拓扑学描述神经网络的判断结果与其分类之间关系的可视化方式。这项成果不妨资助钻研职员判断神经网络推理流程中发生混淆的具体情况,让人工智能系统更加透明。

能找神经网络Bug的可视化对象,Nature子刊收录

钻研职员发明,在神经网络推理的某些数据图中存在尖峰,这些尖峰往往出现在神经网络判断模糊与产生差错的地方。观察这些尖峰,钻研职员可以更容易发明人工智能系统中的故障点。

从分析癌症突变的原因到决定谁应该获得贷款,在解决这些问题的流程中,仿照人脑的神经网络比人类表现得更加快速、准确、公正。但是由于人工智能的工作并不透明,难以得知它们推理判断的流程,这引发了对人工智能可靠性的担忧。现在,一项新的钻研提供了一种发明神经网络的差错出在哪里的方式。这项钻研为揭示神经网络在出错时正在进行怎样的操作提供了能够。

神经网络在对数据集进行计算时,会将注意力集中在样本上,例如图象中能否包含人脸。编码这些细节的数字串被用来计算样本属于某个一定类别的几率。在本例中,计算的是图象中能否有一个人,以及这个人的脸能否显示出来。

然而,神经网络从哪些样本数据细节中习得了解决问题的方式,仍是未解之谜。神经网络的「黑盒」特性使得钻研者难以判断神经网络给出的答案能否正确。

论文作者,普渡大学的计算机科学教授 David Gleich 认为:「当你向一个人询问解决某个问题的方式,他可以给出一个你能理解的答案。」但是神经网络不会给出他们的解题流程。

在这项新钻研中,Gleich 和同事们没有追踪实验中神经网络对单个样本的决策流程,而是试图将系统对于整个数据库的所有决策结果与样本之间的关系进行可视化。

Gleich 透露表现:「我仍然对这项技术在资助我们理解神经网络的可解释性。」钻研团队用 ImageNet 数据库中的 130 万余张图片对神经网络进行了训练。他们开发了一种不妨拆分与合并样本分类的方式,用以识别有高几率属于多个分类的图象。

在此基础上,钻研团队运用拓扑学,绘制出了神经网络的判断结果与每个分类之间的关系图。拓扑学的知识不妨资助他们识别不同数据集之间的相似性。Gleich 透露表现:「基于拓扑数据分析的对象曾在分析乳腺癌中的一定亚群与基因能否有关的问题中发挥作用。」

能找神经网络Bug的可视化对象,Nature子刊收录

论文链接:https://www.nature.com/articles/s42256-023-00749-8

在根据新钻研成果生成的关系图中,每个点代表神经网络认为有关联的图象组,不同分类的图由不同的颜色透露表现。点之间的距离越近,神经网络认为每组图象越相似。这些舆图的大部分地区都显示了单一颜色的点群。

能找神经网络Bug的可视化对象,Nature子刊收录

两个不同颜色的重叠点透露表现有高几率属于多个分类的图象。「我们的方式不妨构建出类似舆图的关系图,放大某些数据地区。」 Gleich 透露表现,「这些地区通常是某几个分类边界不明显的地方,在这些地方,解决方案能够并不那么清晰。不过,它能突出值得进一步钻研的一定的数据预计。」

由新方式生成的舆图不妨显示网络无法分类的地区。这种方式提供了「让钻研者不妨运用人类与生俱来的思维方式来推测神经网络的推理思路」的途径。Gleich 透露表现道:「这使我们可以根据已知的网络来预计它将如何响应全新的输入。」

钻研团队发明神经网络特别容易混淆如胸腔的 X 光片、基因序列以及服装等类别的图案。例如,当一个网络在 Imagenette 数据库(ImageNet 的一个子集)测试时,它反复地将汽车的图片归类为磁带播放器。他们发明这是由于这些图片是从网购列表中提取的,含有汽车音响设备的标签。

该团队的新方式有助于揭示「差错出在哪里」。Gleich 介绍说:「在这个层面上分析数据,可以让科学家们从仅仅在新数据上得到一堆有用的预计,深入理解神经网络能够是如何处理他们的数据的。」

「我们的对象似乎很擅长资助发明训练数据本身能否包含差错,」Gleich 透露表现。「人们在手工标注数据时确实会犯差错。」

这种分析策略的潜在用途能够包括特别重要的神经网络应用。比如说,神经网络在医疗保健或医学中的应用,以钻研败血症或皮肤癌。

批评者认为,由于大多数神经网络都是根据过去的决定训练出来的,这些决定反映了对人类群体本来存在的偏见,因此 AI 系统最终会复制过去的差错。Gleich 说,如果能找到一种方式来使用新对象「了解预计中的偏见或成见」,能够是一个显著的进步。

Gleich 透露表现,这一新对象可与神经网络一起使用,通过小数据集生成一定预计,例如「基因突变能否能够有害」。但目前为止,钻研职员还没有办法将它应用于大语言模型或扩散模型。

了解更多内容,请参考原论文。

参考内容:

https://spectrum.ieee.org/ai-mistakes

https://www.cs.purdue.edu/homes/liu1740/

https://www.cs.purdue.edu/homes/tamaldey/

https://www.cs.purdue.edu/homes/dgleich/

给TA打赏
共{{data.count}}人
人已打赏
工程

挥舞起代码语料的魔杖,大模型和智能体将召唤出更强大的能量

2024-1-10 17:07:00

工程

47年前经典影片另类重制,从宇宙到原子皆是生成

2024-1-15 11:17:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索