耗时三个多月,夜以继日撰写,马毅教授的综述文章《 On the Principles of Parsimony and Self-Consistency for the Emergence of Intelligence 》终于来了!
马毅教授默示:这篇文章把过去五年自己的工作以及智能七十多年的发展有机结合起来。并默示自己一生从未在一篇文章上花这么多精力和时间。希望这篇文章能对现在的研讨方向和品味产生正面的影响。
这篇论文由马毅教授联合神经生物学家曹颖、较量争论机大牛沈向洋共同撰写。
论文地址:https://arxiv.org/pdf/2207.04630.pdf
本文旨在提供整体立场和观点,而不是从技术上证明每一项主张的合理性。研讨者希望这篇论文能给大家理出智能的起源以及较量争论原理的基本轮廓和框架,让大家认识到这种理论联系实践的可能性。他们也希望通过这篇文章,对目前的研讨方向和风气在一定程度上起到正本清源的作用 。
马毅教授默示:「在这篇论文中,我们不再区分人工智能或天然智能。如果任何事物 / 任何人是智能的,其应该遵循相同的准则和机制。」
本文主要分 4 个章节,第 1 节主要介绍研讨背景和动机;第 2 节使用可视化数据建模作为具体示例来提出两个准则——简洁和自洽,并说明如何将它们实例化为可较量争论的目标、架构和体系;第 3 节研讨者推测这两个准则会使得通用进修引擎用于更广泛的感知和决策任务;最后,第 4 节研讨者讨论了所提出准则的多层含义及其与神经科学、数学和高级智能的联系。
下面我们来看看这篇论文的具体内容。
智能的两个基本准则:简洁和自洽
本节中,研讨者以视觉表象(visual imagery)数据建模为例,从简洁性和自洽性的第一准则推导出了收缩闭环转录框架。
过去十年,人工智能的进步在很大程度上依赖于使用蛮力工程方法训练黑盒模型,例如深度神经网络可以说是使用蛮力方法训练而成。虽然功能模块化可能出现在训练中,但进修到的特点默示在很大程度上仍然是隐藏的、潜在的、并且是难以解释的。我们都了解,端到端黑盒模型这种昂贵的蛮力训练不仅导致模型规模不断增长和高昂的数据 / 较量争论成本,在实践中也伴随着许多问题:由于神经崩溃导致最终进修表征缺乏丰富度;由于模式崩溃导致训练缺乏稳定性;缺乏对灾难性遗忘的适应性和敏感性;缺乏对变形或对抗性攻击的鲁棒性。
我们假设在当前深度网络和人工智能实践中出现这些问题的根本原因之一是对智能体系的功能和组织准则缺乏体系和综合的理解。
例如,在实践中,训练用于分类的判别模型和用于采样的生成模型在很大程度上是分开的。此类模型通常是开环体系,需要通过监视或自监视进行端到端的训练。在控制论中,研讨者长期遵循的一个准则是,这种开环体系不能自动纠正预测中的错误,并且不能适应环境的变化。研讨者将闭环反馈引入受控体系,以便体系能够学会纠正其错误。正如本文所讨论的,在这里可以得出类似的经验:一旦将判别模型和生成模型组合在一起形成一个完整的闭环体系,进修就可以变得自主(无需外部监视),并且更高效、稳定且适应性强。
要理解智能体系中可能需要的功能组件,例如判别式或生成式,研讨者需要从准则性且统一的角度来理解智能。
本文认为,简洁和自洽两个基本准则支配着任何智能体系的功能和设计,无论是人工的还是天然的。这两个准则分别旨在回答以下两个关于进修的基本问题:
1. 进修什么:从数据中进修的目标是什么,如何衡量?
2. 如何进修:我们如何通过高效和有效的较量争论来实现这样的目标?
第一个问题的答案属于信息 / 编码理论领域,该理论研讨如何准确量化和测量数据的信息,然后寻求信息的最紧凑默示。一旦进修的目标明确并确定,第二个问题的答案天然会落入控制 / 博弈论领域,该领域提供了一个普遍有效的较量争论框架,即闭环反馈体系,用于一致地实现可测量目标,如下图 1 所示。
简洁
智能体系需要这一准则的一个根本原因是:没有简洁准则,智能将是不可能的!现在我们面临的一个问题是智能体系如何体现简洁准则。从理论上讲,智能体系可以使用世界上任何理想的构造化模型系列,只要它们简单且足够表达以模拟现实世界感官数据中的有用构造。体系应该能够准确有效地评估进修模型的好坏,并且使用的度量应该是基本的、通用的、易于较量争论和优化的。该研讨使用了可视化数据建模的激励性和直观示例。
如下图所示,x 默示输入的传感数据,比如一个图像,用 z 来默示它的内部默示。传感数据样本 x ∈ R^D 通常是相当高维的(数百万像素),但具有极低维的内在构造。在不损失一般性的情况下,我们可以假设它分布在一些低维子流形上,如图 2 所示。
对于 LDR 模型系列,有一种天然的内在简洁度量。直观地说,给定一个 LDR,我们可以较量争论所有子空间上的所有特点所跨越的总体积以及每个类别的特点所跨越的体积之和。然后这两个体积之间的比率给出了一个天然的衡量标准,来表明 LDR 模型性能:比率越大越好。图 3 展示了一个示例,其中特点分布在两个子空间 S1 和 S2 上。
左侧和右侧的模型具有相同的内在复杂性。显然,左侧的配置是首选,因为不同类别的特点是独立且正交的——它们的外部表征将是最稀疏的。
自洽
单凭简洁准则并不能保证模型能够从感知到的外部世界数据中获取所有重要信息。例如,通过最小化交叉熵,将每个类映射到一维的 one-hot 向量,可以被视为一种简洁的形式。这可能会进修到一个好的分类器,但进修到的特点会崩溃为单例(singleton),被称为神经崩溃。这样进修到的特点将不再包含足够的信息来重新生成原始数据。如果特点空间维数过低,则进修的模型对数据拟合不足;如果过高,模型可能会过度拟合。
更一般地说,该研讨认为感知不同于特定任务的执行,感知的目标是进修感知到的一切可预测的东西,即智能体系应该能够从收缩默示中重新生成观测数据的分布,使其达到自身内部无法区分的程度。为了控制进修完全忠于表征过程,该研讨引入了第二个准则:自洽准则,即自主智能体系通过最小化被观测对象与重新生成对象之间的内部差异,来寻求外部世界观测的最自洽模型。
不过自洽和简洁是高度互补的,应该一起使用。仅靠自洽准则并不能确保收缩或效率方面的增益。
下图为一个闭环反馈体系,整个过程如图 6 所示。这个过程可以在编码器 f 和解码器 g 之间重复,产生一种天然的追逐和逃避游戏。
下图为通过收缩闭环转录的增量进修:
请注意,该框架的基本构想是在完全无监视的设置中工作。因此,即使出于示范目的,该研讨提出了假设类信息可用的准则,但该框架可以天然地扩展到完全无监视的设置,其中没有为任何数据样本提供类信息。在这种情况下,只需将每个新样本及其增强视为(15)中的一个新类。这可以被视为一种自监视。结合自批评游戏机制,可以轻松进修收缩闭环转录。
如图 8 所示,如此进修的自动编码不仅表现出良好的样本一致性,而且进修到的特点还表现出清晰且有意义的局部低维(薄)构造。更令人惊讶的是,即使在训练期间根本没有提供任何类信息,子空间或特点相关的块对角构造也开始出现在为类进修的特点中(图 9)。因此,进修到的特点构造类似于在灵长类动物大脑中观察到的类别选择区域。
在剩下的两节中,该研讨对收缩闭环转录框架的普遍性提出了更多的推测性想法,并将其扩展到 3D 视觉和强化进修(第 3 节),预测其对神经科学、数学和更高层次的智能影响(第 4 节)。
通用进修引擎
3D 感知和决策被认为是自主智能体系的两个关键模块(LeCun,2022)。该研讨推测,在这两个准则的指导下,研讨者如何能够发展不同的观点和新的见解来理解这些具有挑战性的任务。
感知为收缩闭环转录?更准确地说,世界上物体的形状、外观甚至动力学的 3D 表征应该是我们大脑内部开发的最紧凑和构造化的默示,以一致地解释所有感知到的视觉观察。如果是这样,那么这两个准则就表明,一个紧凑和构造化的 3D 表征就是我们要寻找的内部模型。这意味着我们可以并且应该在一个闭环较量争论框架内统一较量争论机视觉和较量争论机图形,如图 10 所示。
智能体从感知结果中进修或从其行动中获得奖励的整个过程形成了另一个更高级别的闭环(图 11)。
总而言之,对于大规模 RL 任务,正是这两个准则使得感知、进修和行动的闭环体系成为真正高效和有效的进修引擎。有了这样的引擎,如果环境和进修任务中确实存在这样的构造,自主智能体就能够发现低维构造,并最终在进修的构造足够好、泛化良好时智能地行动!
更多内容,请阅读原论文。
参考链接:https://weibo.com/u/3235040884?topnav=1&wvr=6&topsug=1