AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级试验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文作家均来自北京航空航天大学人工智能学院和复杂关键软件环境全国重点试验室黄雷副教授团队。一作倪云昊为研一学生,二作郭宇芯为大三学生,三作贾俊龙为研二学生,通讯作家为黄雷副教授(主页:https://huangleibuaa.github.io/)
神经搜集通常由三部分组成:线性层、非线性层(激活函数)和标准化层。线性层是搜集参数的主要存在位置,非线性层提升神经搜集的表达才智,而标准化层(Normalization)主要用于稳定和加速神经搜集训练,很少有工作研究它们的表达才智,例如,以Batch Normalization为例,它在预测阶段可以认为是线性变换,从表达上并未引入非线性。因此研究人员普遍认为Normalization并不能够提升模型的表达才智。
然而,最近由北京航空航天大学人工智能学院黄雷老师团队发表在ICML2024上的论文《On the Nonlinearity of Layer Normalization》指出,层标准化(Layer Normlization,LN)以及其计算退化版本RMSNorm具有非线性表达才智,并详细讨论了LN的全能近似分类才智。
论文地址:https://arxiv.org/abs/2406.01255
该论文对LN的非线性进行了数学证明。并且提出了仅含线性层和LN的简单神经搜集LN-Net,在足够深的情况下,理论上,可以肆意分类给定的样本和样本类别。这一发现打破了人们将各种Normalization视为不具有拟合才智的线性变换的惯性认知,而非线性层和标准化层也不再是互不相交的神经搜集模块。
目前,随着transformer的广泛运用,LN作为其中的固定组成部分,已经成为了一种普遍运用的技术,该研究在未来可能为神经搜集架构提供新的理论依据,在这个方向上,具有开创性意义。
LN非线性的数学发现
对于非线性研究,文章并没有直接讨论LN本身的分析性质,而是更具有实用意义地探求了LN与数据之间的交互。
作家首先提出了统计量SSR(Sum of Squares Ratio),描述两个类别下样本的线性可分性。当对样本进行线性变换时,SSR也会发生变化。因此,定义样本在所有线性变换下对应的最小的SSR为LSSR。文章指出,当LSSR越小时,样本之间的线性可分性越强。
然而,当对样本施加的线性变化替换为“线性变换-LN-线性变换”的结构时,发现得到的新的SSR有可能低于LSSR,这验证了LN的非线性表达——如果LN是线性的,那么“线性变换-LN-线性变换”也是线性的,得到的新SSR不可能会低于LSSR。
LN在分类问题中的肆意可分性
为了进一步研究,作家将LN拆分为两个步骤:中心化(centering)和尺度缩放(scaling)。中心化从数学上是一个线性变换,因此LN的非线性主要存在于尺度缩放操作当中(文章中也称之为球面投影,是RMSNorm执行的操作)。作家以最为简单的线性不可分的异或数据为例,通过线性变换和球面投影将这四个点进行了正确分类。
更一般地,作家提出了运用LN和线性层对肆意数目样本进行正确分类的算法,探求了LN-Net的全能近似才智。
通过构造算法步骤,将神经搜集的逐层变换转换为同类样本合并问题,将全能近似分类问题转换为样例归并问题,并指出——对于肆意标签的m个样本,都可以构造一个O(m)层的LN-Net,对这m个样本进行正确分类。这一构造方法为计算神经搜集的VC维也提供了新的思路。作家指出,在此基础上,可以推断出有L个层标准化层的LN-Net,VC维至少有L+2。
LN非线性加强与实际应用
作家在证明了LN非线性的基础上,为进一步加强LN的非线性以便于实际应用,提出了分组层标准化技术(LN-G)。作家在数学上从海森矩阵的角度预测分组能强化LN的非线性,并从试验上初步探测了LN-G的表达才智。
作家指出,在CIFAR-10随机标签数据集上,对于通常的线性层模型,其准确率不超过20%;而运用线性层和LN-G构成的神经搜集(不引入传统的激活函数作为非线性单元)能够取得55.85%的准确率。
作家进一步探求了LN-G在无激活函数的卷积神经搜集的分类效果,并试验上证明了这种没有激活函数的神经搜集的确有着强大的拟合才智。此外,作家类比MLP上GN作用于整个样本上(将单个样本拉伸成一维向量,再进行GN),提出了LN-G-Position。在没有非线性层的ResNet搜集上运用LN-G-Position方法在CIFAR-10数据集上能够取得86.66%的准确率,体现了LN-G-Position强大的表达才智。
作家接下来在Transformer上进行了试验探求,将原本的LN替换为LN-G,根据试验结果发现了分组层标准化能有效性提升Transformer搜集的性能,证明了真实搜集中,该理论的可行性。
结论与展望
作家在《On the Nonlinearity of Layer Normalization》论文中,理论上首次证明了仅含有线性层和LN的模型的全能分类才智以及给定特定深度的模型的VC维下界,这里面最重要的意义是将传统深度神经搜集的表达才智的分析朝广泛运用的现代真实搜集迈出了一大步,这一点可能为未来的神经搜集结构设计提供新的思路。