ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士，其导师为 Rose Yu。她的主要研究方向为神经网络参数空间中的对称性，及其对优化、泛化和损坏函数地貌的影响。她曾获 DeepMind

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本论文作者赵博是加州大学圣地亚哥分校的三年级在读博士，其导师为 Rose Yu。她的主要研究方向为神经网络参数空间中的对称性，及其对优化、泛化和损坏函数地貌的影响。她曾获 DeepMind 奖学金，并且是高通创新奖学金的决赛入围者。邮箱：[email protected]

众多神经网络模型中都会有一个有趣的现象：差别的参数值可以得到相同的损坏值。这种现象可以通过参数空间对称性来解释，即某些参数的变换不会影响损坏函数的结果。鉴于这一发现，传递算法（teleportation）被设计出来，它利用这些对称变换来减速寻找最优参数的过程。尽管传递算法在实践中表现出了减速优化的潜力，但其背后的确切机制尚不清楚。

近日，来自加州大学圣地亚哥分校、Flatiron Institute、美国东北大学等机构的研究人员发布的《Improving Convergence and Generalization Using Parameter Symmetries》论文中，展现了传递不仅能在短期内加快优化过程，而且能总体上缩短收敛时间。此外，研究还发现，传递到具有差别曲率的最小值可以改善模型的泛化本领，这意味着最小值的曲率与泛化本领之间存在联系。研究者们进一步将传递技术与多种优化算法以及鉴于优化的元进修相结合，这些结果充分展现了在优化过程中融入参数空间对称性的潜力。

ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效

论文链接：https://openreview.net/forum?id=L0r0GphlIL

代码链接：https://github.com/Rose-STL-Lab/Teleportation-Optimization

作者主页：https://b-zhao.github.io/

背景：对称性和传递算法

参数空间对称性（parameter space symmetry）是群 G 在参数空间（Param）上的一个作用，该作用使得损坏函数 L 的值保持不变：

ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效

对称传递算法（symmetry teleportation）在损坏函数水平集中寻找更陡峭的点以减速梯度下降：

ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效

传递后，损坏值不会改变。然而，梯度和之后的训练轨迹会有所差别。

ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效

传递对收敛速率的提升

论文第一部分提供了对传递提升收敛速率的理论证明。

通过传递，随机梯度下降（SGD）会收敛到一个包含多个静止点的盆地，其中通过传递可达的每个点都是静止的。图 1 中的定理提供了损坏函数梯度期望值的上限。相比之下，普通 SGD 只能保证存在一个点 wt，使得梯度最终会很小。加入传递后，对于群作用轨道上所有的点，梯度都将很小。

ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效

图 1：该定理提供了损坏函数梯度期望值的上限

此外，在进行一次传递后，梯度下降的方向与牛顿法（Newton’s method）方向相同。因此，收敛速率具有一个二次收缩项，这是二阶方法的典型特征。相反，如果在相同的假设下省略传递步骤，算法的收敛速率将仅呈现线性收敛。图 2 中的定理展现了传递导致的线性和二次收敛的混合。

ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效

图 2：该定理展现了传递导致的线性和二次收敛的混合

通过传递改善泛化本领

在探索机器进修模型优化的过程中，「传递」这一概念最初被提出是为了减速收敛并提升算法的效率。然而，在该论文的第二部分，研究者们将视野扩展到了一个新的目标 —— 提升模型的泛化本领。

泛化本领通常与模型在训练过程中达到的极小值的「锐度」(sharpness) 相关。为了深入理解这一点，研究者们引入了一个新的概念 ——「极小值曲率」(curvature)，并讨论其对泛化的影响。通过观察极小值的锐度、曲率与泛化本领之间的关联，研究者们提出了一种新的方法，将锐度和曲率纳入传递的目标中来提升模型的泛化性能。

图 3 通过可视化的方式展现了一个梯度流 L (w) 和一条极小值上的曲线（γ），这两条曲线的曲率对应着极小值的锐度和曲率。此外，表中还显示了测试集上的损坏与锐度或曲率之间的 Pearson 相关性。在三个数据集中，锐度与考证损坏呈强正相关，而极小值的曲率则与考证损坏呈负相关。这些发现表明，具有较小锐度或较大曲率的极小值，可能会带来更好的泛化效果。

ICLR 2024 Oral｜用巧妙的「传递」技巧，让神经网络的训练更加高效