新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR

2021年,诺贝尓奖委员会决定将物理奖颁发给复杂系统研究领域、以乔治·帕里西(George Parisi)为首三位科学家。 当时不仅物理学界,许多计算神经科学家或理论机器学习学者表达了对帕里西的祝贺和感激,认为他的理论成果极大地推动了神经网络理论研究这一跨学科领域的蓬勃发展。 在新加坡国立大学,Choy Heng Lai(赖载兴)教授便是这一波复杂系统与神经网络跨学科研究风潮的代表人物之一。

新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR

2021年,诺贝尓奖委员会决定将物理奖颁发给复杂系统研究领域、以乔治·帕里西(George Parisi)为首三位科学家。当时不仅物理学界,许多计算神经科学家或理论机器学习学者表达了对帕里西的祝贺和感激,认为他的理论成果极大地推动了神经网络理论研究这一跨学科领域的蓬勃发展。

在新加坡国立大学,Choy Heng Lai(赖载兴)教授便是这一波复杂系统与神经网络跨学科研究风潮的代表人物之一。赖教授的学术生涯,始于对物理学的热爱和对未知的好奇。上个世纪70年代在芝加哥大学求学期间,他深入研究了粒子现象学和场论,探索了弱相互作用模型构建时期的标准模型;在哥本哈根的尼尔斯玻尔研究所,他进一步拓展了自己的学术视野,从量子色动力学的角度研究了电子-正电子湮灭过程中的多喷流结构。这一研究不仅加深了他对物理学的理解,更激发了他对复杂系统的浓厚兴趣。

加入新加坡国立大学后,赖教授面临着一个全新的学术环境。远离实验信息中心的他,开始转向粒子物理学的其他领域,探索强子相互作用的几何图像、经典规范场理论和量子场理论。然而,他逐渐意识到,还原论方法并不足以充分解释集体性质和复杂行为的涌现。这一认识,促使他开始探索非线性动力学和混沌,逐步进入复杂网络和更广泛的复杂系统研究领域。

在此过程中,赖教授及其团队在《人工智能与机器人研究国际期刊》(IJAIRR)的最新研究——《Asymptotic edge of chaos as guiding principle for neural network training》——成为了深度学习领域的一个创新之举。这项研究首次尝试将混沌边缘(edge of chaos)的概念应用于神经网络训练,提出了一种新的训练原则,即在混沌边缘,深度学习模型能够展现出最佳的泛化性能。这一发现不仅是对深度学习理论的贡献,也为未来的训练策略指明了方向。

借此契机,赖教授向AI科技评论介绍了该论文的研究过程,以及混沌研究中存在的感悟。

论文链接:https://gairdao.com/doi/10.1142/S2972335323500011

论文引用链接:https://www.worldscientific.com/action/showCitFormats?doi=10.1142%2FS2972335323500011&area=0000000000000001

混沌边缘:神经网络训练的新思路

“混沌”是“秩序”的反义词,是随机混乱,是不可预测的“蝴蝶效应”;混沌边缘源自复杂系统理论,并描绘了一种处于有序与混沌之间的动态平衡状态。这一理论基础不仅在物理学、生物学等多个学科中展现出其深远的影响,也在神经网络和人工智能的研究中揭示了其独特的价值。

神经网络本质上是复杂的非线性动力学系统,它们展现出的混沌特性赋予了它们独特的信息处理能力。正是这种与混沌紧密相连的本质,使得混沌神经网络被视为模拟现实世界复杂计算任务的智能信息处理系统之一。在神经科学领域,有研究表明,大脑在某些操作点上可能接近混沌边缘,这样的状态被认为能够优化信息处理和学习能力。不同于当前主流人工智能研究试图用一种简单的数学方法来理解人工智能模型,混沌边缘的概念不仅启示了一种新的思考方式,而且为我们理解大脑如何处理复杂信息提供了一个强有力的理论工具。

混沌边缘原理表明,在有序与混沌之间的动态平衡状态可以促进信息的最大化处理。在神经网络中,这意味着网络能够在保持足够稳定性的同时,对输入数据进行高效的信息编码和处理。这种平衡状态为理解网络内部的决策过程提供了一个窗口,因为网络在混沌边缘的操作可能伴随着更加明显和可追踪的动态模式。

赖教授这项研究的核心,在于如何将混沌边缘的理论转化为实际的神经网络训练策略。赖教授及其团队选择了一种常用的训练算法和正则化过程,展示了如何根据这一理论原则来设置训练超参数,而不是依赖传统的反复试验或基于启发式的方法。他们提出了一种“半解析”方法来确定最佳的权重衰减强度,这种方法需要对基础解析方程进行一定的校准,以估计维持模型在混沌边缘的最佳权重衰减强度。

与上帝掷骰子

赖教授的研究不仅仅在探索混沌边缘对于优化神经网络性能的潜力,而且还着重于提高人工智能系统的可解释性。在人工智能领域,尤其是深度学习模型,通常被认为是“黑箱”,因为它们的决策过程缺乏透明度。然而,赖教授研究中使用的混沌边缘原理,提供了一种可能的途径来增强模型的可解释性。

通过赖教授的“半解析”方法,研究人员能够更精确地控制神经网络的权重衰减,从而维持网络在混沌边缘的最佳状态。这种方法不仅有助于提升网络的泛化能力,还可能揭示网络如何通过权重的调整来响应不同的输入数据。因此,混沌边缘原理的应用为理解神经网络的决策机制提供了一种新的视角,有助于我们解释和预测模型的行为。

此外,赖教授的研究还指出,通过适当的正则化,可以推动模型向有序状态转移,从而实现更好的性能。这种正则化方法,如权重衰减,通过惩罚过大的权重值来防止模型过拟合,同时保持模型的复杂性和表达能力。这种方法的引入,为解释模型的行为提供了更多的线索,因为正则化项直接影响了模型的决策边界和敏感度。

正如一句话所言:问题不在于上帝是否掷骰子,而在于如何掷骰子。赖教授的研究,不仅在理论上具有创新性,更在实践中显示出巨大的潜力。这一原则也适用于高度复杂的模型和任务,或许这一研究的潜在应用,有望影响未来的神经网络训练策略,帮助我们了解“如何掷骰子”。

一、论文解读

AI科技评论: 您的最新论文《Asymptotic edge of chaos as guiding principle for neural network training》探讨了混沌边缘在神经网络训练中的作用。您能为我们解读一下这项研究的创新点吗?

新加坡国立大学赖载兴教授专访:用混沌边缘改善神经网络,与上帝掷骰子 | IJAIRR

(论文截图。来源:IJAIRR)

赖载兴: 这项研究我们早期发现(https://arxiv.org/abs/1909.05176) 的首次应用尝试,即深度学习模型在接近混沌边缘时具有最佳泛化性能。然后,我们被激励在实践中应用这种“混乱边缘”原则。我们选择关注一种常用的训练算法和正则化过程,以证明人们可以根据这一理论原理来设置训练超参数,而不是像通常那样进行反复试验或基于启发式方法。

赖载兴: 谢林顿-柯克帕特里克自旋玻璃模型(SK 模型)【注1】已被物理学家用来理解神经网络。我们的贡献是将现代神经网络训练过程进一步映射到SK模型相图上,并进一步将训练超参数与物理动力学过程联系起来,以便可以清楚地理解每个参数在有序混沌过渡过程中的作用。

赖载兴:  “半解析”意思是因为它需要对基础解析方程进行一定的校准。为了估计将模型维持在混沌边缘的最佳权重衰减强度,我们需要知道它与其他训练超参数之间的数学关系。虽然它们之间的函数依赖性可以通过分析得出,但方程中的某些常数需要根据经验进行校准。本质上,通过“设置”这个最佳权重衰减强度,模型将不断探索学习数据模式的最佳权重配置,从而实现最佳测试精度。

赖载兴: 我们认为这是使用“混沌边缘”【注2】作为增强深度学习模型训练原则的第一个概念验证。虽然我们在简单的训练任务上选择了一个简单的模型,但我们预计这一原则也适用于高度复杂的模型和任务,尽管控制混沌边缘的确切实现可能会有所不同。

赖载兴: 研究过程中有很多失败的尝试。我们研究了模型和训练机制的许多不同变体,但大未能提供清晰的洞见或因过于复杂而难以分析。但所有这些失败都帮助我们对理论图景和深度学习训练动态有了更深入的了解,其中不少发现令人振奋。

此外,我们面临的另一个挑战是如何将跨学科的研究成果传达给特定领域的专家,尤其是计算机科学家。物理学家与计算机科学家在研究人工智能时可能采用截然不同的视角和方法,有时甚至显得格格不入。然而,这种跨学科的交流极大地促进了我们向他们学习,从而显著提升了我们的研究质量。

我们之间的一个研究差距可能是,目前的人工智能研究依赖简单的数学方程来理解人工智能模型,隐含地希望在解释它时能达到一些简单性。然而,人工智能似乎利用的是复杂性而不是简单性,这种隐含的“简单性”假设可能会阻碍理解人工智能深入理解的进展。工智能深入理解的进展。

赖载兴: 除了人工智能之外,复杂性科学中也有“混沌边缘”的相关研究。他们中的许多人研究生物网络和分布式水库计算机网络(Reservoir Computer Networks)。著名的包括印第安纳大学伯明根分校的约翰·贝格斯(John Beggs)、宾夕法尼亚大学的丹尼·S·巴塞特(Dani S. Bassett)。

二.领域洞见

赖载兴: 最大的挑战可能是可解释性,这样模型就可以用来完成艰巨的任务。我们研究中使用的混沌边缘原理可以作为提高人工智能可解释性的理论基础。

赖载兴: 我们的研究是概念验证的第一步,表明利用复杂系统科学中的原理可以帮助创建更好的人工智能模型。从长远来看,它可以带来更好、更复杂的训练算法或模型架构。然而,由于大型语言模型等最先进的模型非常庞大且复杂,因此实现更好的人工智能模型非常具有挑战性。

赖载兴: 量子信息科学正沿着一条不可阻挡的轨迹迅速发展,这不仅得益于它巨大的潜力,更源于它对量子技术革新的驱动作用。随着我们对量子世界的认识日益加深,对通信、计算和安全等领域的高级功能需求不断增长,探索量子领域已成为一个合乎逻辑的下一步。制造量子设备是一个复杂的过程,它要求精密的工程技巧和跨学科知识的融合。量子信息科学有潜力成为连接多个前沿创新的关键纽带。

复杂系统科学正逐渐被视为一种普遍的方法论和思考框架,而不仅仅是特定领域的知识。它已经渗透并融入了众多学科包括物理、化学、生物医学、工程,乃至社会科学、经济学、物流等领域,以及城市动力学、弹性和可持续性问题。这些问题的解决不再局限于传统学科的视角,而是需要跨学科的协作和贡献。随着复杂性思维成为研究的常态,“复杂性科学”这个术语在未来很可能会从我们的词汇中消失。

三、学术背景及展望

赖载兴: 我1971 年至 1978 年间在芝加哥大学完成了本科至博士的学习, 我的博士论文是关于(反)中微子诱导的二μ子的产生,这项研究为弱相互作用模型构建时期提供了对标准模型的深入和及时评估。随后,在我哥本哈根的尼尔斯玻尔研究所,我深入研究了量子色动力学下的电子-正电子湮灭过程。

加入新加坡国立大学后,我面临了与实验信息中心距离较远的挑战,这促使我转向粒子物理学的其他理论领域,包括强子相互作用、经典与量子规范场理论。我被整体论所吸引,认为还原论方法不能完全解释复杂系统的集体行为。我的研究逐步从非线性动力学和混沌理论扩展到复杂网络和系统,这是一段充满发现的物理学之旅。

赖载兴: 在我看来,求知欲是学者最宝贵的品质,它驱使我们超越自己的专业领域,对新的问题保持好奇,欣赏并吸收他人的创新思维和方法,以及用自己学科的原则和概念来构建问题和挑战。我在芝加哥大学接受的跨学科教育,涵盖物理、人文、社会科学以及生物和化学,为我日后在新加坡国立大学的多元教育发展中打下了坚实的基础。无论是建立计算科学项目、转型物理系研究方向,还是参与创立耶鲁-新加坡国立大学学院,这些经历都丰富了我的教育背景和科学视野。

最近,我将研究领域扩展到了机器学习物理学,这一转变源自对深度学习基本原理的深入思考。在物理学中,我们习惯于通过对称性或最优化原则(如最小作用原理、熵最大化等)来理解现象。如果我们将深度学习视为一个动态过程,我会关注在这个过程中哪些量被最小化或最大化,以及这些过程背后的机制是什么。这种探索在某种程度上是第一波神经网络浪潮中物理学家工作的延续,并有助于我们在深度学习领域实现更高的可解释性和可重复性。

赖载兴: 我的同事(Feng Ling, Chen Kan, 和一些研究生)目前正在进行城市动力学问题的概念框架和应用开发,包括城市韧性(临界点、预警信号、预测……)、城市环境中的疫情传播,以及社交网络上的信息传播和控制(包括错误信息)。这项工作是在新加坡国立大学城市框架下进行的。

我参与的另一个方向是新加坡的AI for Science倡议,希望能够利用新加坡已建立的科学界社群来推动人工智能的应用,并可能为理解人工智能过程的机制和动态提供反馈。

赖载兴:  我的朋友阿图尔·埃克特(Artur Ekert)是量子技术中心的首任主任,他在所有电子邮件中都引用了一句话:“做你喜欢的事,喜欢你所做的事”。我非常赞同这句话。我个人认为,成为一名科学家是一种特权,你可以追随自己的热情,将学习和探索视作生活方式,而非单纯的“工作”。换言之,你从事研究是源于你的激情和兴趣;教学是希望分享知识的喜悦;承担学术管理,是因为对所属机构有深厚的归属感和责任感。自己的学术生涯能如此充实,尽管这可能带有些许理想化色彩。不幸的是(也许?!),现代学术界越来越重视研究成果作为成功的唯一标准,这可能会改变年轻学者对学术成就的认识和满足感。

注1:谢林顿-柯克帕特里克(Sherrington-Kirkpatrick,简称SK)自旋玻璃模型是一个物理学中的简化模型,涉及到大量元素之间的复杂相互作用,用数学语言来描述,在一种被称为自旋玻璃特殊的磁性材料所包含的中随机分布、完全无序的小磁铁之间非常复杂和混乱的磁场模式,以及这些小磁铁如何在这个混乱的网络中找到一种平衡状态。简而言之,SK模型是一个探索复杂系统中秩序与混乱相互作用的重要工具,这个模型也在研究大脑神经元如何协同工作时提供了洞见。

注2:"混沌边缘"(Edge of Chaos)是一个描述系统动态行为的术语,它指的是一种特殊状态,其中系统的行为既不是完全有序的,也不是完全无序的。这个概念在复杂系统理论中非常重要,因为它通常与系统的高适应性和信息处理能力相关联。在人工智能和机器学习中,研究者尝试利用混沌边缘的概念来设计更智能、更能适应新情况的算法。

相关资讯

李沐「动手学深度学习」第二部分CNN本周开课,也邀你挑战他10行代码的竞赛成绩

本周六,课程将进入第二部分:卷积神经网络,欢迎对这部分有疑问的同学上车学习。

150页在线书「几何深度学习」上线:利用对称性和不变性解决机器学习问题

CNN、GNN、LSTM、Transformer 等深度学习模型之间的共通之处是什么?在这本书里问题得到了解答。

神经网络debug太难了,这里有六个实用技巧

神经网络的 debug 过程着实不容易,这里是一些有所帮助的 tips。