本文介绍浙江大学、威斯康星大学麦迪逊分校等机构的最新工作 PiCO,相关论文已被 ICLR 2022 录用(Oral, Top 1.59%)!
偏标签进修 (Partial Label Learning, PLL) 是一个经典的弱监视进修问题,它允许每一个训练样本关联一个候选的标签聚集,适用于许多具有标签不确定性的的现实世界数据标注场景。然而,现存的 PLL 算法与完全监视下的格式依然存在较大差距。
为此,本文提出一个协同的框架解决 PLL 中的两个关键研究挑战 —— 表征进修和标签消歧。具体地,研究者提出的 PiCO 由一个比照进修模块和一个新颖的基于类原型的标签消歧算法组成。PiCO 为来自同一类的样本生成紧密对齐的表示,同时促进标签消歧。从实践上讲,研究者表明这两个组件不妨互相促进,并且可以从期望最大化 (EM) 算法的角度得到严格证明。大量尝试表明,PiCO 在 PLL 中显着优于当前最先进的 PLL 格式,甚至可以达到与完全监视进修相当的结果。
论文地址:https://arxiv.org/pdf/2201.08984v2.pdf
项目主页:https://github.com/hbzju/pico
背景
深度进修的兴起依赖于大量的准确标注数据,然而在许多场景下,数据标注本身存在较大的不确定性。例如,大部分非专业标注者都无法确定一只狗到底是阿拉斯加还是哈士奇。这样的问题称为标签歧义(Label Ambiguity),源于样本本身的模糊性和标注者的知识不足,在更需要专业性的标注场景中十分普遍。此时,要获得准确的标注,通常需要聘用具有丰富领域知识的专家进行标注。为了减少这类问题的标注成本,本文研究偏标签进修 [1](Partial Label Learning,PLL),在该问题中,研究者允许样本关联一个候选标签聚集,其中包含了真实的标签 。
在 PLL 问题中,最重要的问题为标签消歧(Disambiguation),即从候选标签聚集中识别得到真实的标签。为了解决 PLL 问题,现有的工作通常假设样本具有良好的表征,然后基于平滑假设进行标签消歧,即假设特征接近的样本可能共享相同的真实标签。然而,对表征的依赖致使 PLL 格式陷入了表征 – 消歧困境:标注的不确定性会严重影响表征进修,表征的质量又反向影响了标签消歧。因此,现有的 PLL 格式的性能距离完全监视进修的场景,依然存在一定的差距。
为此,研究者提出了一个协同的框架 PiCO,引入了比照进修技术(Contrastive Learning,CL),来同时解决表示进修和标签消歧这两个高度相关的问题。本文的主要贡献如下:
格式:本论文率先探索了部分标签进修的比照进修,并提出了一个名为 PiCO 的新框架。作为算法的一个组成部分,研究者还引入了一种新的基于原型的标签消歧机制,有效利用了比照进修的 embeddings。
尝试:研究者提出的 PiCO 框架在多个数据集上取得了 SOTA 的结果。此外,研究者首次尝试在细粒度分类数据集上进行尝试,与 CUB-200 数据集的最佳基线相比,分类性能提高了 9.61%。
实践:在实践上,研究者证明了 PiCO 等价于以 Expectation-Maximization 过程最大化似然。研究者的推导也可推广到其他比照进修格式,证明了 CL 中的对齐(Alignment)性质 [2] 在数学上等于经典聚类算法中的 M 步。
框架
简而言之,PiCO 包含两个关键组件,分别进行表示进修和标签消歧。这两个组件系统地作为一个整体运行并相互反哺。后续,研究者也会进一步从 EM 的角度对 PiCO 的进行严格的实践解释。
分类损失(Classification Loss)
给定数据集,每一个元组包含 和一个候选标签聚集 。为了有效解决 PLL 问题,研究者为每一个样本维护一个伪标签向量 。在训练过程中,研究者会不断革新这个伪标签向量,而模型则会优化以下损失进行革新分类器,
PLL的比照表征进修(Contrastive Representation Learning For PLL)
受到监视比照进修(SCL)[3] 的启发,研究者旨在引入比照进修机制,为来自同一类的样本进修相近的表征。PiCO 的基本结构和 MoCo [4] 类似,均由两个搜集构成,分别为 Query 搜集和 Key 搜集。给定一个样本,研究者首先利用随机数据增强技术获得两个增广样本,分别称为 Query View 和 Key View。然后,它们会被分别输入两个搜集,获得一对– 归一化的 embeddings,即和。
实现时,研究者让 Query 搜集与分类器共享相同的卷积块,并增加一个额外的投影搜集。和 MoCo 一样,研究者利用 Query 搜集的动量平均(Momentum Averaging)技术对 Key 搜集进行革新。并且,研究者引入一个队列 queue,存储过去一段时间内的 Key embedding。由此,研究者获得了以下的比照进修 embedding pool:。接着,研究者根据如下公式计算每一个样本的比照损失:
其中是比照进修中的正样本集,而。是温度参数。
Positive Set 选择。可以发现,比照进修模块中,最重要的问题即为正样本聚集的构建。然而,在 PLL 问题中,真实标签是未知的,因此无法直接选择同类样本。因此,研究者采用了一个简单而有效的战略,即直接使用分类器预测的标签:,构建如下正样本集:
为了节约计算效率,研究者还维护一个标签队列来存储之前几个 Batch 的预测。尽管该战略很简单,却能得到非常好的尝试结果,并且不妨从实践上被证明该战略是行之有效的。
基于原型的标签消歧(Prototype-based Label Disambiguation)
值得注意的是,比照进修依然依赖于准确的分类器预测,因此依然需要一个有效的标签消歧战略,获取准确的标签估计。为此,研究者提出了一个新颖的基于原型的标签消歧战略。具体的,研究者为每一个标签维护了一个原型 embedding 向量,它可以被看作一组具有代表性的 embedding 向量。
伪标签革新。在进修过程中,研究者首先将 S 初始化为 Uniform 向量。接着,基于类原型,研究者采用一个滑动平均的战略革新伪标签向量,
即,研究者选择最近的原型对应的标签,逐步革新伪标签 S。此处,采用滑动平均原因是比照进修搜集输出的 embeddings 在初始阶段并不可靠,此时拟合 Uniform 伪目标不妨很好地初始化分类器。然后,滑动平均战略伪标签平滑地革新为正确的目标,以确保一个稳定的 Traning Dynamic。
原型革新。为了革新伪标签,一个简单的格式是每一个迭代或者 Epoch 中都计算一次每一个类的中心,不过这会引起较大的计算代价。因此研究者再一次使用滑动平均技术革新原型,
即,当被预测为类别时,则令往对应的向量方向步进一些。
Insights. 值得注意的是,这两个看似独立的模块实际上不妨协同工作。首先,比照进修在 embeddings 空间中具有聚类效果,因此不妨被标签消歧模块利用,以获得更准确的类中心。其次,经过标签消歧后,分类器预测的标签更准确,不妨反哺比照进修模块构造更精准的 Positive Set。当两个模块达成一致时,整个训练过程就会收敛。研究者在接下来在实践上更严格地讨论 PiCO 与经典 EM 聚类算法的相似之处。
尝试结果
主要结果
在展开实践分析之前,研究者首先看一下 PiCO 优异的尝试效果。首先是在 CIFAR-10、CIFAR-100 上的结果,其中,表示每一个 Negative Label 成为候选标签的概率。
如上图,PiCO 达到了十分出色的尝试结果,在两个数据集、不同程度的歧义下(对应的大小),均取得了 SOTA 的结果。值得注意的是,之前的工作 [5][6] 均只探讨了标签量较小的情况(),研究者在 CIFAR-100 上的结果表明,即使在标签空间较大,PiCO 依然具有十分优越良好的性能。最后,值得注意的是,当相对较小的时候,PiCO 甚至达到了接近全监视的结果!
表征进修
除此之外,研究者还可视化了不同格式进修到的表征,可以看到 Uniform 标签导致了模糊的表征,PRODEN 格式进修到的簇则存在重叠,无法完全分离。相比之下,PiCO 进修的表征更紧凑,更具辨识度。
消融尝试
最后,研究者展示不同的模块对尝试结果的影响,可以看到,标签消歧模块和比照进修模块都会带来非常明显的性能提升,消融其中一个会带来的性能下降。更多的尝试结果请详见原论文。
实践分析
终于到了最激动人心的部分!相信大家都有一个疑问:为什么 PiCO 不妨获得如此优异的结果?本文中,研究者从实践上分析比照进修得到的原型有助于标签消歧。研究者将会展示,比照进修中的对齐性质(Alignment)本质上最小化了 embedding 空间中的类内协方差,这与经典聚类算法的目标是一致的。这促使研究者从期望最大化算法(Expectation-Maximization,EM)的角度来解释 PiCO。
首先,研究者考虑一个理想的 Setup:在每一个训练步骤中,所有数据样本都是可访问的,并且增广的样本也包含在训练集中,即。然后,可以如下计算比照损失:
研究者主要关注第一项 (a),即 Alignment 项 [2],另一项 Uniformity 则被证明有利于 Information-Preserving。在本文中,研究者将其与经典的聚类算法联系起来。研究者首先将数据集划分为个子集,其中每一个子集中的样本包含具有相同的预测标签。实际上,PiCO 的 Positive Set 选择战略也是通过从相同的战略来构造 Positive Sets。因此,研究者有,
其中是一个常数,是的均值中心。这里研究者近似因为通常很大。为简单起见,研究者省略了符号。可以看到,Alignment 这一项不妨最小化类内方差!
至此,研究者可以将 PiCO 算法解释为优化一个生成模型的 EM 算法。在 E 步,分类器将每一个样本分配到一个特定的簇。在 M 步,比照损失将 embedding 集中到他们的簇中心方向。最后,训练数据将被映射到单位超球面上的混合 von Mises-Fisher 分布。
EM-Perspective。为了估计似然,研究者额外引入一个假设来建立候选标签聚集与真实标签的联系,
由此,研究者证明 PiCO 隐式地最大化似然如下,
E-Step。首先,研究者在引入一组分布,且若,。令为的参数。研究者的目标是最大化如下似然,
最后一步推导使用了 Jensen 不等式。由于函数是凹函数,当是某些常数时等式成立。因此,研究者有,
即为类后验概率。在 PiCO 中,研究者使用分类器输出对其进行估计。
为了估计,经典的无监视聚类格式直接将样本分配给最近的聚类中心,如 k-Means 格式;在完全监视进修情况下,研究者可以直接使用 ground-truth 标签。然而,在 PLL 问题中,监视信号处于完全监视和无监视之间。根据研究者的尝试观察,候选标签在开始时对后验估计更可靠;而随着模型训练,比照进修的原型会变得更加可信。这促使研究者以滑动平均方式革新伪标签。因此,研究者在估计类后验时有一个很好的初始化信息,并且在训练过程中会被平滑地改善。最后,由于每一个样本对应一个唯一的标签,研究者采用 One-hot 预测,研究者有。
M-Step。在这一步,研究者假设后验类概率已知,并最大化似然。下述定理表明,最小化比照损失不妨也最大化似然的一个下界,
证明见原文。当接近 1 时,下界较紧,这意味着超球面的类内集中度很高。直观地说,当假设空间足够丰富时,研究者有可能在欧几里得空间中得到较低的类内协方差,从而导致均值向量的范数很大。然后,超球面中的归一化 embedding 在也具有较强的类内集中度,因为大的也会导致大的 K 值 [7]。根据尝试结果中的可视化结果,研究者发现 PiCO 确实不妨进修紧凑的簇。因此,研究者认为最小化比照损失也不妨最大化似然。
结论
在本文中,研究者提出了一种新颖的偏标签进修框架 PiCO。其关键思想是通过使用比照进修的 embdding 原型从候选聚集中识别真实标签。全面的尝试结果表明 PiCO 达到了 SOTA 的结果,并在部分情况下达到了接近完全监视的效果。实践分析表明,PiCO 可以被解释为一种 EM 算法。研究者希望研究者的工作不妨引起社区的更多关注,以更广泛地使用比照进修技术进行偏标签进修。
尝试室简介
欢迎大家加入研究者赵俊博老师所在的浙江大学数据智能尝试室和带领的M3 Group(与宝马那辆跑车没啥关系)!!尝试室在计算机学院院长陈刚老师带领下,曾获 VLDB 2014/2019 best paper,近年来在 VLDB、ICLR、ICML、ACL、KDD、WWW 等顶级会议和期刊上成果颇丰,多次获得国家级、省级奖项。赵俊博老师是浙江大学百人计划研究员、博士生导师,师承 Yann LeCun,Google 引用 1w+,知乎万粉小 V,AI 赛道连续创业者。
赵俊博主页:http://jakezhao.net/
参考
1. 实际上,PLL 有更直接的别名:Ambiguous Label Learning(模糊 / 歧义标签进修),或 Superset Label Learning(超集标签进修)。本文遵循最常用的名称,称作偏标签进修。
2. Tongzhou Wang and Phillip Isola. Understanding contrastive representation learning through alignment and uniformity on the hypersphere. In ICML, volume 119 of Proceedings of Machine Learning Research, pp. 9929–9939. PMLR, 2020.
3. Prannay Khosla, Piotr Teterwak, Chen Wang, Aaron Sarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, Ce Liu, and Dilip Krishnan. Supervised contrastive learning. In NeurIPS, 2020.
4. Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross B. Girshick. Momentum contrast for unsupervised visual representation learning. In CVPR, pp. 9726–9735. IEEE, 2020.
5. Jiaqi Lv, Miao Xu, Lei Feng, Gang Niu, Xin Geng, and Masashi Sugiyama. Progressive identification of true labels for partial-label learning. In ICML, volume 119 of Proceedings of Machine Learning Research, pp. 6500–6510. PMLR, 2020.
6. Lei Feng, Jiaqi Lv, Bo Han, Miao Xu, Gang Niu, Xin Geng, Bo An, and Masashi Sugiyama. Provably consistent partial-label learning. In NeurIPS, 2020b.
7. Arindam Banerjee, Inderjit S. Dhillon, Joydeep Ghosh, and Suvrit Sra. Clustering on the unit hypersphere using von mises-fisher distributions. J. Mach. Learn. Res., 6:1345–1382, 2005.
知乎原文:https://zhuanlan.zhihu.com/p/463255610