AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文作者曾秋皓,加拿大西安大略大学计算机系博士研究生,本科毕业于哈尔滨工业大学,硕士毕业于新加坡国立大学。在王博予教授和凌晓峰院士的指导下,博士期间主要围绕随时候变化的分散的问题展开理论、要领和应用的研究。目前已在 ICLR/AAAI/IEEE TNNLS 发表多篇学术论文。
个人主页:https://hardworkingpearl.github.io/
在现实世界的机器学习应用中,随时候变化的分散偏移是常见的问题。这种情况被建立为时变域泛化(EDG),目标是通过学习跨领域的潜在演化形式,并利用这些形式,使模型能够在时候变化系统中对未见目标域进行良好的泛化。然而,由于 EDG 数据集中时候戳的数量有限,现有要领在捕获演化动态和避免对稀疏时候戳的过拟合方面遇到了挑战,这限制了它们对新任务的泛化和适应性。
为了解决这个问题,我们提出了一种新的要领 SDE-EDG,它通过持续插值样本收集数据分散的无限细分网格演化轨迹(IFGET),以克服过拟合的问题。此外,通过利用随机微分方程(SDEs)捕获持续轨迹的固有能力,我们提出了将 SDE 建模的轨迹通过最大似然估计与 IFGET 的轨迹对齐,从而实现捕获分散演化趋势。
论文标题:Latent Trajectory Learning for Limited Timestamps under Distribution Shift over Time
论文链接:https://openreview.net/pdf?id=bTMMNT7IdW
项目链接:https://github.com/HardworkingPearl/SDE-EDG-iclr2024
要领
核心思想
为了克服这一挑战,SDE-EDG 提出了一种新颖的要领,通过建立无限细分网格演化轨迹(Infinitely Fined-Grid Evolving Trajectory, IFGET),在潜在表示空间中创建持续插值样本,以弥合时候戳之间的间隔。此外,SDE-EDG 利用随机微分方程(Stochastic Differential Equations, SDEs)的内在能力来捕获持续的轨迹动态,通过门路对齐正则化器将 SDE 建模的轨迹与 IFGET 对齐,从而实现跨域捕获演化分散趋势。
要领细节
1. 建立 IFGET:
首先,SDE-EDG 在潜在表示空间中为每个样本建立样本到样本的对应关系,收集每个个体样本的演化轨迹。对于时候的每个类别 k 的任一样本,我们搜索时候在特性空间离其最近的为其在的对应样本:
这里是计算两个向量之间的距离,是从下个领域采样的个样本的集合。
然后,利用这种对应关系生成持续插值样本,旨在连接时候戳间隔之间的时候间隙,避免对稀疏时候戳的过拟合,
这里采样自 Beta 分散。通过收集通过以上方式产生的样本的时序轨迹,我们得到 IFGET。
2. 使用 SDE 建模轨迹:
SDE-EDG 采用神经 SDE 来模拟数据在潜在空间中的持续时候轨迹。与传统的基于离散时候戳的模型分别, SDE 天然适合于模拟持续的时候轨迹。SDE-EDG 建模了时序轨迹,可以通过时候的样本预测任意未来时候的样本:
这里特性空间变量是由时候的样本预测得到,是 drift function,是 diffusion function。
3. 门路对齐与最大似然估计:
SDE-EDG 通过最大化 IFGET 的似然估计来训练模型,
最终训练函数是,第一项是预测分类任务误差损坏函数。
4. 实验
下表展现了 SDE-EDG 与其他基线要领在多个数据集上分类准确率的比较。这些数据集包括 Rotated Gaussian (RG), Circle (Cir), Rotated MNIST (RM), Portraits (Por), Caltran (Cal), PowerSupply (PS), 和 Ocular Disease (OD)。结果显示,SDE-EDG 在所有数据集上的平均准确率均优于其他要领。
下图提供了一个直观的比较,展现了 SDE-EDG 算法(左)与传统 DG 要领 IRM(右)在特性表示方面的差异。通过数据特性空间的可视化,我们可以观察到 SDE-EDG 学习到的特性表示具有明显的决策边界,其中分别类别的数据点被清晰地区分开来,以分别形状表示,并且分别域的数据以彩虹条的颜色区分。这表明 SDE-EDG 能够成功捕获数据随时候演化的动态,并在特性空间中保持类别的可分性。相比之下,IRM 的特性表示则倾向于将数据点坍缩到单一方向,导致决策边界不明显,这反映出 IRM 在捕获时变分散趋势方面的不足。
下图通过一系列子图深入展现了 SDE-EDG 算法在捕获数据随时候演化的能力方面的优势。子图 (a) 提供了 Sine 数据集的真实标签分散,其中正例和负例用分别颜色的点表示,为后续的比较提供了基准。接着,子图 (b) 和 (c) 分别展现了基于 ERM 的传统要领和 SDE-EDG 算法对同一数据集的预测结果,通过对比可以看出 SDE-EDG 在捕获数据演化形式上的明显优势。子图 (d) 和 (e) 进一步揭示了 SDE-EDG 学习到的演化门路,其中 (d) 展现了应用了门路对齐损坏(最大似然损坏函数)后的门路,而 (e) 展现了未应用该损坏时的门路。通过这一对比,可以直观地看到门路对齐损坏对于确保模型能够正确捕获和表征数据随时候变化的重要性。
下图子图 (a) 展现了在 Portraits 数据集上,使用分别算法进行训练时的准确率收敛轨迹。这个子图提供了一个直观的视角,用以比较 SDE-EDG 算法与其他基线要领(如 ERM、MLDG、GI)在训练过程中性能的变化情况。通过观察训练准确率随时候推移的增长趋势,我们可以评估分别算法的学习能力和收敛速度。SDE-EDG 算法的收敛轨迹尤其值得关注,因为它揭示了该算法在适应不断演化的数据分散时的效率和稳定性。
下图子图 (b) 和 (c) 分别展现了 RMNIST 和 Circle 数据集上,SDE-EDG 算法在这些数据集上的表现显示出其在处理时变分散时的优越性,即使在面对较大时候跨度的目标域时,也能保持较高的准确率,这表明了 SDE-EDG 算法在捕获和适应数据演化形式方面的强大能力。
下图子图 (d) 和 (e) 探讨了最大似然损坏(Maximum Likelihood Loss)在 RMNIST 和 PowerSupply 数据集上对 SDE-EDG 性能的影响。通过改变正则化权重 α 的值,这两个子图展现了分别 α 设置对模型性能的具体影响。实验结果表明,适当的 α 值可以显著提高 SDE-EDG 在特定数据集上的性能,这强调了在实际应用中根据数据集特性和任务需求调整超参数的重要性。
结论
论文作者提出了一种新的 SDE-EDG 要领,用于建模时变域泛化(EDG)问题。要领涉及通过识别样本到样本的对应关系并生成持续插值样本来建立 IFGET。随后,作者采用随机微分方程(SDE)并将其与 IFGET 对齐进行训练。文章的贡献在于揭示了通过收集个体的时候轨迹来捕获演化形式的重要性,以及在时候间隔之间进行插值以减轻源时候戳数量有限的问题,这有效地防止了 SDE-EDG 对有限时候戳的过拟合。