AIxiv专栏是呆板之心发布学术、技术内容的栏目。过去数年,呆板之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
近期,硅谷 AI 公司 OpenAI 可谓是话题度拉满,先是一出「宫斗戏」引起舆论哗然,后是公布 Sora 成果炸裂受到了全网的一致好评。在这期间,一桩诉讼案件同样引爆了热点 —— 因 ChatGPT 涉嫌侵犯纽约时报著作权,OpenAI 及微软被起诉并要求支付巨额版权费 [1]。一方是传统新闻行业的代表刊物,一方是新兴人工智能技术发展中的佼佼者。双方展开这场「里程碑式」拉锯战的同时,也将科研圈长期存在的问题再次拉上了台面:
在 AI 高速发展的浪潮中,如何在保持技术创新的同时不失对于数据安全问题的考量?
的确,随着近年来产业化模型的逐步发展,数据安全在个人隐私、模型安全、版权问题等多方面都受到了严峻的挑战,如:语言模型因引入个人信息而埋下的隐私泄露隐患;扩散生成模型因训练数据中涵盖色情、暴力等不良图象而导致具备产生违法内容的本领。此外,诸如国家互联网信息办公室颁布的《生成式人工智能服务管理暂行办法》[2],以及欧盟的《一般数据保护条例》[3](GDPR)等也意味着对于数据安全的约束也逐渐从道德层面转向了法律、法规层面。人们对于数据安全的需求逐渐从幕后转向了台前,对于呆板学习相关研究者以及现有人工智能服务的提供者而言也是亟待解决的问题与挑战。
直观而言,移除敏感数据并重新训练(Retrain)是一种合理的打消数据影响并保证模型安全的格式。然而,训练模型对时间和算力的消耗不容小觑,对于一些已经产业化并投入使用的大模型,重新训练的额外开销会急剧增大。如何快速有效的打消数据对模型带来的影响 —— 呆板忘记,便成为了一个新兴的热门研究方向。
什么是呆板忘记?
呆板忘记(Machine Unlearning, 也可称呆板「反」学习),这种格式旨打消特定训练数据(如敏感或非法信息)对已完成预训练模型的影响,同时保持该模型的实用性。在评估一种呆板忘记格式时,我们需从三个关键维度出发:
1. 高效:算法是否高效运行;
2. 精确:特定数据是否被精确忘记;
3. 稳定:忘记后模型是否具有稳定泛化本领。
遗憾的是,现有的呆板忘记格式都无法同时满足这三个维度的要求。近日,密歇根州立大学(Michigan State University)、宾夕法尼亚大学(University of Pennsylvania)和 IBM 研究院(IBM Research)的研究者们分析了已有呆板忘记格式的局限性,基于权重显著性提出了一种简单、直观但表现优异的呆板忘记框架 ——SalUn(Saliency Unlearn)。实验结果表明,在图象分类和图象生成工作上,SalUn 都能够出色地满足高效、精确和稳定这三个维度的要求,证明了其在呆板忘记领域的创新性和重要性。
论文题目:SalUn: Empowering Machine Unlearning via Gradient-based Weight Saliency in Both Image Classification and Generation
论文地址:https://arxiv.org/abs/2310.12508
代码地址:https://github.com/OPTML-Group/Unlearn-Saliency
论文的共同一作樊翀宇在密歇根州立大学交流期间(目前是华中科技大学的本科生,即将加入密歇根州立大学攻读博士学位),与清华姚班毕业生刘剑成协作完成了这项研究。目前,相关论文已被人工智能领域的顶级会议 ICLR 2024 录用为 Spotlight。
「裸体」观念忘记前后对比;(中)「狗」类忘记前后对比;(右)「素描」风格忘记前后对比 [5]
现有呆板忘记格式存在哪些局限?
1. 在分类工作下的不稳定性:现有格式在图象分类中不同忘记工作下的表现仍存在差异性。从下图可以看到,在忘记数据量为 10% 时,一些基线格式如 l1-sparse [6] 可以接近理想的忘记成果,但当忘记数据量逐步增加,特别是达到 50% 时,现有格式与理想的忘记差距显著增大。
现有格式在不同忘记数据量下与理想忘记成果忘记成果间的差值
2. 在生成工作下无法泛化:目前已有的呆板忘记格式集中于图象分类工作,不能适应图象生成。如下图所示,当现有的忘记格式直接迁移到生成模型上时,往往不是过度忘记就是忘记不足 —— 模型要么模型对于非忘记类图象的生成质量不佳,要么仍然具有生成被忘记类别的本领。
现有格式在生成工作上的表现
SalUn:基于权重显著性的呆板忘记
对于不同工作的分析表明,当忘记工作逐步变难时,忘记数据和剩余数据在这些工作下可能产生更强的耦合进而导致已有格式无法在保证忘记成果的同时维持模型的泛化本领。为了达到更加精确的移除,本文在呆板忘记中引入模块化(modularity)思想,提出了基于权重显著性(Weight Saliency)的呆板忘记格式 ——SalUn。
一般而言,显著性是指模型在做出决策或预测时认为最相关或最重要的数据特征。而权重显著性将此观念扩展到模型的内部权重,确定哪些权重对模型的结果影响最大。SalUn 利用忘记损失梯度预估相关的权重显著性,筛选出对忘记数据敏感的权重,并着重对这部分权重进行忘记。通过对于模型权重的精确掩模,SalUn 在打消模型中对应数据影响的同时尽可能减少对模型泛化本领的损害,以达到忘记精确度和泛化稳定性之间更好的平衡,在不同工作下的忘记中达到了一个统一、有效且简单的解决方案。
具体而言,对于呆板忘记更新后的权重(θu)可以经权重掩码(ms)表示为:
其中,权重掩码使用忘记损失函数ℓf 的梯度作为显著性预估,并基于阈值 γ 进行筛选。文中发现,当ℓf 使用基于梯度上升(Gradient Ascent)的忘记损失函数时即可取得较好成果,即:
可以发现,SalUn 的一个优点便是它即插即用的本领:权重掩模对于现有的忘记格式均可无门槛使用,并在忘记表现上获得一定的提升。特别是,当将权重显著性与随机标签(Random Label)忘记法相结合时,取得了目前 SOTA 的忘记成果。随机标签忘记为需忘记的数据重分配一个随机标签,然后在重标签的数据集上微调模型。因此,优化过程及损失函数可分别表示如下:
实验结果
在图象分类工作中,两个主要的测试场景为类忘记和随机数据忘记。类忘记是针对特定数据集上训练的模型,忘记指定类的全部数据;随机数据忘记则随机指定一定比例的训练数据进行忘记。在两种场景中,与 Retrain 的表现误差会越小意味着忘记表现越好。已有文献表明 [6],相较于类移除,随机数据移除更有挑战性,因此文中考虑图象分类时主要关注于 CIFAR-10 中 ResNet-18 模型在不同比例下的随机数据忘记。相较于其他基线格式,SalUn 在所有实验中与 Retrain 间的平均差距均为最小,取得了目前的 SOTA 成果。
在图象生成工作中,主要的测试场景包含类忘记和观念忘记。其中,类忘记与图象分类中类似,旨在打消模型中针对特定类的生成本领。文中探讨了将 Stable Diffusion 模型打消 ImageNette 数据集中不同类的成果。下图展示了 SalUn 忘记「教堂」类前后模型生成成果的比较,可以发现在忘记后模型在保持其余类生成成果的同时,无法根据文本提示「An image of church」(一张教堂图片)正确的生成对应图象。
略区别于类忘记,生成模型中的观念(concept)忘记通常指打消更为广泛的「观念」,如暴力、色情等。由于扩散模型训练数据量过于庞大,从中筛选并删除相关数据变得异常困难。如前文所述,目前 Stable Diffusion 仍然存在生成 NSFW 内容的本领,这自然成为了一种呆板忘记的应用场景。对此,文中测试了 SalUn 针对「裸体」观念的移除成果,并使用 I2P [4] 测试集对于忘记成果进行测试。在此应用场景下,SalUn 相较于已有的观念移除的格式,能更好的打消「裸体」观念。
原论文中展示了更多研究细节以及经过 SalUn 忘记前后的生成图象示例,感兴趣的读者可参考。
参考文献:
[0] Fan, Liu, et al., "Salun: Empowering machine unlearning via gradient-based weight saliency in both image classification and generation." ICLR’23.
[1] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html
[2] https://www.cac.gov.cn/2023-07/13/c_1690898327029107.htm
[3] https://gdpr-info.eu/
[4] Schramowski, Patrick, et al. "Safe latent diffusion: Mitigating inappropriate degeneration in diffusion models." CVPR’23.
[5] Zhang, et al., "UnlearnCanvas: A Stylized Image Dataset to Benchmark Machine Unlearning for Diffusion Models." arXiv.
[6] Jia, Liu, et al. "Model sparsification can simplify machine unlearning." NeurIPS’23.