以神经收集为基础的深度学习技术已经在诸多应用领域获得了有效成果。在实践中,收集架构可以显著影响学习效率,一个好的神经收集架构能够融入成绩的先验知识,稳定收集训练,提高计算效率。目前,经典的收集架构设想步骤包括人工设想、神经收集架构搜索(NAS)[1]、以及鉴于优化的收集设想步骤 [2]。人工设想的收集架构如 ResNet 等;神经收集架构搜索则通过搜索或强化学习的方式在搜索空间中寻找最佳收集结构;鉴于优化的设想步骤中的一种主流范式是算法展开(algorithm unrolling),该步骤通常在有显式目标函数的情况下,从优化算法的角度设想收集结构。
然而,现有经典神经收集架构设想大多忽略了收集的万有切近亲近本质 —— 这是神经收集具备强大性能的关键因素之一。因此,这些设想步骤在一定程度上失去了收集的先验性能保障。尽管两层神经收集在宽度趋于无穷的时候就已具备万有切近亲近本质 [3],在实际中,我们通常只能考虑有限宽的收集结构,而这方面的表示分析的结果十分有限。实际上,无论是启迪性的人工设想,还是黑箱本质的神经收集架构搜索,都很难在收集设想中考虑万有切近亲近本质。鉴于优化的神经收集设想虽然相对更具解释性,但其通常需要一个显式的目标函数,这使得设想的收集结构种类有限,限制了其应用范围。如何系统性地设想具备万有切近亲近本质的神经收集架构,仍是一个重要的成绩。
为了解决这个成绩,北京大学林宙辰教授团队提出了一种易于操作的鉴于优化算法设想具备万有切近亲近本质保障的神经收集架构的步骤,其通过将鉴于梯度的一阶优化算法的梯度项映射为具备一定本质的神经收集模块,再根据实际应用成绩对模块结构举行调整,就可以系统性地设想具备万有切近亲近本质的神经收集架构,并且可以与现有大多数鉴于模块的收集设想的步骤无缝结合。论文还通过分析神经收集微分方程(NODE)的切近亲近本质首次说明了具备一般跨层连接的神经收集的万有切近亲近本质,并利用提出的框架设想了 ConvNext、ViT 的变种收集,获得了超越 baseline 的结果。论文被人工智能顶刊 TPAMI 接收。
论文:Designing Universally-Approximating Deep Neural Networks: A First-Order Optimization Approach
论文地址:https://ieeexplore.ieee.org/document/10477580
步骤简介
传统的鉴于优化的神经收集设想步骤通常从一个具备显式表示的目标函数出发,采用特定的优化算法举行求解,再将优化迭代体例映射为神经收集架构,例如著名的 LISTA-NN 就是利用 LISTA 算法求解 LASSO 成绩所得 [4],这种步骤受限于目标函数的显式表达式,可设想得到的收集结构有限。一些研究者尝试通过自定义目标函数,再利用算法展开等步骤设想收集结构,但他们也需要如权重绑定等与实际情况可能不符的假设。
论文提出的易于操作的收集架构设想步骤从一阶优化算法的更新体例出发,将梯度或邻近点算法写成如下的更新体例:
其中、表示第 k 步更新时的(步长)系数,再将梯度项替换为神经收集中的可学习模块 T,即可得到 L 层神经收集的骨架:
整体步骤框架见图 1。
图 1 收集设想图示
论文提出的步骤可以启迪设想 ResNet、DenseNet 等经典收集,并且解决了传统鉴于优化设想收集架构的步骤局限于特定目标函数的成绩。
模块选取与架构细节
该步骤所设想的收集模块 T 只要求有包含两层收集结构,即,作为其子结构,即可保证所设想的收集具备万有切近亲近本质,其中所表达的层的宽度是有限的(即不随切近亲近精度的提高而增长),整个收集的万有切近亲近本质不是靠加宽的层来获得的。模块 T 可以是 ResNet 中广泛运用的 pre-activation 块,也可以是 Transformer 中的注意力 + 前馈层的结构。T 中的激活函数可以是 ReLU、GeLU、Sigmoid 等常用激活函数。还可以根据具体任务在中添加对应的归一化层。另外,时,设想的收集是隐式收集 [5],可以用不动点迭代的步骤切近亲近隐体例,或采用隐式微分(implicit differentiation)的步骤求解梯度举行更新。
通过等价表示设想更多收集
该步骤不要求同一种算法只能对应一种结构,相反,该步骤可以利用优化成绩的等价表示设想更多的收集架构,体现其灵活性。例如,线性化交替方向乘子法通常用于求解约束优化成绩:通过令即可得到一种可启迪收集的更新迭代体例:
其启迪的收集结构可见图 2。
图 2 线性化交替方向乘子法启迪的收集结构
启迪的收集具备万有切近亲近本质
对该步骤设想的收集架构,可以说明,在模块满足此前条件以及优化算法(在一般情况下)稳定、收敛的条件下,任意一阶优化算法启迪的神经收集在高维连续函数空间具备万有切近亲近本质,并给出了切近亲近速度。论文首次在有限宽度设定下说明了具备一般跨层连接的神经收集的万有切近亲近本质(此前研究基本集中在 FCNN 和 ResNet,见表 1),论文主定理可简略叙述如下:
主定理(简略版):设 A 是一个梯度型一阶优化算法。若算法 A 具备公式 (1) 中的更新体例,且满足收敛性条件(优化算法的常用步长选取均满足收敛性条件。若在启迪收集中均为可学习的,则可以不需要该条件),则由算法启迪的神经收集:
在连续(向量值)函数空间以及范数下具备万有切近亲近本质,其中可学习模块 T 只要有包含两层形如的结构(σ 可以是常用的激活函数)作为其子结构都可以。
常用的 T 的结构如:
1)卷积收集中,pre-activation 块:BN-ReLU-Conv-BN-ReLU-Conv (z),
2)Transformer 中:Attn (z) + MLP (z+Attn (z)).
主定理的说明利用了 NODE 的万有切近亲近本质以及线性多步步骤的收敛本质,核心是说明优化算法启迪设想的收集结构恰对应一种收敛的线性多步步骤对连续的 NODE 的离散化,从而启迪的收集 “继承” 了 NODE 的切近亲近能力。在说明中,论文还给出了 NODE 切近亲近 d 维空间连续函数的切近亲近速度,解决了此前论文 [6] 的一个遗留成绩。
表 1 此前万有切近亲近本质的研究基本集中在 FCNN 和 ResNet
尝试结果
论文利用所提出的收集架构设想框架设想了 8 种显式收集和 3 种隐式收集(称为 OptDNN),收集信息见表 2,并在嵌套环分离、函数切近亲近和图像分类等成绩上举行了尝试。论文还以 ResNet, DenseNet, ConvNext 以及 ViT 为 baseline,利用所提出的步骤设想了改进的 OptDNN,并在图像分类的成绩上举行尝试,考虑准确率和 FLOPs 两个指标。
表 2 所设想收集的有关信息
首先,OptDNN 在嵌套环分离和函数切近亲近两个成绩上举行尝试,以验证其万有切近亲近本质。在函数切近亲近成绩中,分别考虑了切近亲近 parity function 和 Talgarsky function,前者可表示为二分类成绩,后者则是回归成绩,这两个成绩都是浅层收集难以切近亲近的成绩。OptDNN 在嵌套环分离的尝试结果如图 3 所示,在函数切近亲近的尝试结果如图 3 所示,OptDNN 不仅获得了很好的分离 / 切近亲近结果,而且比作为 baseline 的 ResNet 获得了更大的分类间隔和更小的回归误差,足以验证 OptDNN 的万有切近亲近本质。
图 3 OptNN 切近亲近 parity function
图 4 OptNN 切近亲近 Talgarsky function
然后,OptDNN 分别在宽 – 浅和窄 – 深两种设定下在 CIFAR 数据集上举行了图像分类任务的尝试,结果见表 3 与 4。尝试均在较强的数据增强设定下举行,可以看出,一些 OptDNN 在相同甚至更小的 FLOPs 开销下获得了比 ResNet 更小的错误率。论文还在 ResNet 和 DenseNet 设定下举行了尝试,也获得了类似的尝试结果。
表 3 OptDNN 在宽 – 浅设定下的尝试结果
表 4 OptDNN 在窄 – 深设定下的尝试结果
论文进一步选取了此前表现较好的 OptDNN-APG2 收集,进一步在 ConvNext 和 ViT 的设定下在 ImageNet 数据集上举行了尝试,OptDNN-APG2 的收集结构见图 5,尝试结果表 5、6。OptDNN-APG2 获得了超过等宽 ConvNext、ViT 的准确率,进一步验证了该架构设想步骤的可靠性。
图 5 OptDNN-APG2 的收集结构
表 5 OptDNN-APG2 在 ImageNet 上的性能比较
表 6 OptDNN-APG2 与等宽(isotropic)的 ConvNeXt 和 ViT 的性能比较
最后,论文依照 Proximal Gradient Descent 和 FISTA 等算法设想了 3 个隐式收集,并在 CIFAR 数据集上和显式的 ResNet 以及一些常用的隐式收集举行了比较,尝试结果见表 7。三个隐式收集均获得了与先进隐式收集相当的尝试结果,也说明了步骤的灵活性。
表 7 隐式收集的性能比较
总结
神经收集架构设想是深度学习中的核心成绩之一。论文提出了一个利用一阶优化算法设想具备万有切近亲近本质保障的神经收集架构的统一框架,拓展了鉴于优化设想收集架构范式的步骤。该步骤可以与现有大部分聚焦收集模块的架构设想步骤相结合,可以在几乎不增加计算量的情况下设想出高效的模型。在理论方面,论文说明了收敛的优化算法诱导的网路架构在温和条件下即具备万有切近亲近本质,并弥合了 NODE 和具备一般跨层连接收集的表示能力。该步骤还有望与 NAS、 SNN 架构设想等领域结合,以设想更高效的收集架构。
参考文献
[1] B. Baker, O. Gupta, N. Naik, and R. Raskar, “Designing neural network architectures using reinforcement learning,” in International Conference on Learning Representations, 2017.
[2] V. Monga, Y. Li, and Y. C. Eldar, “Algorithm unrolling: Interpretable, efficient deep learning for signal and image processing,” IEEE Signal Processing Magazine, 2021.
[3] K. Hornik, M. Stinchcombe, and H. White, “Multilayer feedforward networks are universal approximators,” Neural Networks, 1989.
[4] K. Gregor and Y. LeCun, “Learning fast approximations of sparse coding,” in International Conference on Machine Learning, 2010.
[5] S. Bai, J. Z. Kolter, and V. Koltun, “Deep equilibrium models,” in Advances in Neural Information Processing Systems, 2019.
[6] Q. Li, T. Lin, and Z. Shen, “Deep learning via dynamical systems: An approximation perspective,” Journal of the European Mathematical Society, 2022.