编译 | 白菜叶
「神经网络是目前人工智能领域最强大的工具。」Perimeter Institute for Theoretical Physics 的研究员 Sebastian Wetzel 表示,「当我们将它们扩展到更大的数据集时,没有什么可以与之竞争。」
然而,一直以来,神经网络都存在一个缺点。当今许多成功网络的基本构建模块被称为多层感知器(MLP)。但尽管取得了一系列成功,人类仍然无法理解基于这些 MLP 构建的网络是如何得出结论的,或者是否存在一些基本原理可以解释这些结果。神经网络所表现出的能力就像魔术师一样,都是秘密,隐藏在「黑匣子」里。
人工智能研究人员长期以来一直想知道不同类型的网络是否有可能以更透明的方式提供同样可靠的结果。
2024 年 4 月的一项研究提出了一种替代神经网络设计,称为 Kolmogorov-Arnold 网络(KAN),它更加透明,但对于某一类问题,它几乎可以完成常规神经网络可以完成的所有事情。它基于 20 世纪中叶的一个数学思想,该思想在深度学习时代被研究人员重新认识。
论文链接:https://arxiv.org/abs/2404.19756
虽然这一创新仅有几个月的历史,但新设计已经引起了研究和编码界的广泛兴趣。约翰霍普金斯大学计算机科学家 Alan Yuille 表示:「KAN 更易于解释,可能特别适用于科学应用,因为它们可以从数据中提取科学规则。[它们是] 无处不在的 MLP 的一种令人兴奋的新替代品。」
「实现不可能」
典型的神经网络的工作原理如下:人工神经元(或节点)的各层通过人工突触(或边)相互连接。信息通过每一层,在那里被处理并传输到下一层,直到最终成为输出。边是有权重的,因此权重较大的边比其他边具有更大的影响力。在一段称为训练的时间内,这些权重会不断调整,以使网络的输出越来越接近正确答案。
神经网络的一个常见目标是找到一个数学函数或曲线,以最佳方式连接某些数据点。网络越接近该函数,其预测就越好,结果就越准确。如果您的神经网络模拟某些物理过程,则输出函数将理想地表示描述物理学的方程 – 相当于物理定律。
对于 MLP,有一个数学定理可以告诉你网络可以多接近最佳函数。这个定理的一个结果是 MLP 无法完美地表示该函数。
但在适当的情况下,KAN 可以。
KAN 进行函数拟合(连接网络输出的点)的方式与 MLP 完全不同。KAN 不依赖具有数值权重的边,而是使用函数。这些边缘函数是非线性的,这意味着它们可以表示更复杂的曲线。它们也是可学习的,因此可以比 MLP 的简单数值权重以更高的灵敏度进行调整。
然而在过去的 35 年里,人们认为 KAN 从根本上来说不切实际。麻省理工学院物理学家、计算神经学家 Tomaso Poggio 在 1989 年的一篇论文中明确指出,KAN 核心的数学思想「与学习网络无关」。
论文链接:http://cbcl.mit.edu/people/poggio/journals/girosi-poggio-NeuralComputation-1989.pdf
Poggio 的关注点之一可以追溯到 KAN 核心的数学概念。1957 年,数学家 Andrey Kolmogorov 和 Vladimir Arnold 在各自但互补的论文中表明,如果你有一个使用多个变量的单一数学函数,你可以将其转换为多个函数的组合,每个函数都有一个变量。
然而,有一个重要的问题。该定理得出的单变量函数可能不「平滑」,这意味着它们可能具有像 V 的顶点一样的尖锐边。对于任何试图使用该定理重新创建多变量函数的网络来说,这都是一个问题。更简单的单变量部分需要平滑,以便它们能够在训练期间学会以正确的方式弯曲,以匹配目标值。
因此,KAN 的前景似乎并不乐观——直到今年 1 月的一个寒冷的日子,麻省理工学院物理学研究生刘子鸣(Ziming Liu)决定重新审视这个课题。他和他的导师、麻省理工学院物理学家 Max Tegmark 一直致力于让神经网络更易于理解,以用于科学应用——希望能够让人们一窥黑匣子内部——但事情并没有进展。
无奈之下,刘子鸣决定研究一下 Kolmogorov-Arnold 定理。他问道:「为什么不试一试,看看它是如何运作的,即使过去人们并没有给予它太多关注?」
Tegmark 熟悉 Poggio 的论文,并认为这一努力将再次走向死胡同。但刘子鸣没有气馁,Tegmark 很快就改变了主意。他们认识到,即使该定理生成的单值函数不平滑,网络仍然可以用平滑函数来近似它们。
他们进一步了解到,我们在科学中遇到的大多数函数都是平滑的,这使得完美(而非近似)的表示有可能实现。刘子鸣不想在没有尝试的情况下就放弃这个想法,因为他知道,自 35 年前 Poggio 的论文发表以来,软件和硬件已经取得了长足的进步。从计算角度来说,2024 年许多在 1989 年甚至无法想象的事情都将成为可能。
刘子鸣花了大约一周的时间研究这个想法,在此期间,他开发了一些原型 KAN 系统,所有系统都有两层——最简单的网络,以及研究人员几十年来一直关注的类型。双层 KAN 似乎是显而易见的选择,因为 Kolmogorov-Arnold 定理本质上为这种结构提供了蓝图。
该定理具体将多变量函数分解为不同的内部函数和外部函数集。(它们代表了沿着边的激活函数,替代了 MLP 中的权重。)这种安排自然而然地适用于具有内层和外层神经元的 KAN 结构——这是简单神经网络的常见安排。
但令刘子鸣失望的是,他的原型机在完成他设想的科学相关任务时表现都不佳。Tegmark 随后提出了一个关键建议:为什么不尝试使用两层以上的 KAN,这样也许能够处理更复杂的任务?
这种突破性的想法正是他们所需要的突破。刘子鸣刚起步的网络开始展现出希望,因此两人很快联系了麻省理工学院、加州理工学院和东北大学的同事。他们希望团队中既有数学家,又有他们计划让 KAN 分析的领域的专家。
在他们 4 月份的论文中,该团队表明三层的 KAN 确实是可能的,并提供了一个可以精确表示函数的三层 KAN 的示例(而两层 KAN 则不能)。
他们并没有止步于此。此后,该团队尝试了多达六层的神经网络,每层神经网络都能够与更复杂的输出函数相匹配。「我们发现,基本上可以堆叠任意多的层。」论文合著者之一王逸轩 (Yixuan Wang) 说道。
经过验证的改进
作者还将他们的网络用于解决两个现实问题。第一个问题与数学的一个分支有关,称为结理论。2021 年,DeepMind 的一个团队宣布他们已经构建了一个 MLP,在输入了足够多的结的其他属性后,它可以预测给定结的某种拓扑属性。三年后,新的 KAN 复制了这一壮举。然后它更进一步,展示了预测属性与其他所有属性之间的关系——刘子鸣说,这是「MLP 根本做不到的」。
第二个问题涉及凝聚态物理学中一种称为 Anderson 局域化的现象。目标是预测特定相变发生的边界,然后确定描述该过程的数学公式。没有任何 MLP 能够做到这一点。他们的 KAN 做到了。
但 Tegmark 表示,KAN 相对于其他形式的神经网络的最大优势,以及其近期发展的主要动机,在于其可解释性。在这两个例子中,KAN 不只是给出答案,它还提供了解释。「可解释是什么意思?」他问道,「如果你给我一些数据,我就会给你一个可以写在 T 恤上的公式。」
约翰霍普金斯大学研究机器学习的物理学家 Brice Ménard 表示,尽管 KAN 在这方面的能力目前还很有限,但从理论上讲,这些网络可以教会我们一些关于世界的新知识。
Ménard 说:「如果问题实际上可以用一个简单的方程来描述,那么 KAN 网络就很擅长找到它。」但他提醒道,KAN 最适用的领域可能仅限于问题——例如物理学中的问题——其中方程往往只有很少的变量。
刘子鸣和 Tegmark 对此表示同意,但并不认为这是一个缺点。「几乎所有著名的科学公式」——例如 E = mc^2——「都可以用一两个变量的函数来写。」Tegmark 说,「我们所做的绝大多数计算都依赖于一两个变量。KAN 利用这一事实并寻找这种形式的解决方案。」
终极方程
刘子鸣和 Tegmark 的 KAN 论文迅速引起轰动,在大约三个月内就获得了 75 次引用。很快其他团队也开始研究自己的 KAN。
论文链接:https://arxiv.org/abs/2406.11045
清华大学 Wang Yizheng 团队于 6 月在线发表的一篇论文表明,他们的 Kolmogorov Arnold Informed 神经网络 (KINN) 在解决偏微分方程 (PDE) 方面「明显优于」 MLP。Wang 说,这不是小事:「PDE 在科学中无处不在。」
新加坡国立大学研究人员在 7 月份发表的一篇论文则更加喜忧参半。他们得出的结论是,KAN 在可解释性相关任务上的表现优于 MLP,但发现 MLP 在计算机视觉和音频处理方面表现更佳。
论文链接:https://arxiv.org/abs/2407.16674
这两个网络在自然语言处理和其他机器学习任务上的表现大致相当。对于刘子鸣来说,这些结果并不令人意外,因为最初的 KAN 团队的重点一直是「与科学相关的任务」,而可解释性是其中的重中之重。
与此同时,刘子鸣正在努力让 KAN 更加实用和易于使用。8 月,他的团队发表了一篇名为「KAN 2.0」的新论文,他将其描述为「更像是一本用户手册,而不是一篇传统论文」。刘子鸣表示,这个版本更加用户友好,除了原始模型所缺乏的功能外,还提供了一个乘法工具。
论文链接:https://arxiv.org/abs/2408.10205
他和他的合著者认为,这种类型的网络不仅仅是一种达到目的的手段。KAN 促进了该组织所称的「好奇心驱动的科学」,这与长期主导机器学习的「应用驱动的科学」相得益彰。例如,在观察天体运动时,应用驱动的研究人员专注于预测其未来状态,而好奇心驱动的研究人员希望揭示运动背后的物理原理。
刘子鸣希望,通过 KAN,研究人员可以从神经网络中获得更多,而不仅仅是帮助解决原本令人望而生畏的计算问题。他们可能会专注于单纯地获得理解。
相关内容:https://www.quantamagazine.org/novel-architecture-makes-neural-networks-more-understandable-20240911/