联邦学习 (federated learning) 是一种在中心服务器 (server)的协调下利用分散在各用户 (client)的本地数据集协同训练模型的一种分布式训练模式。为保证参与方隐衷,训练过程中,训练数据不会离开本地,取而代之的是模型相关的信息(例如模型架构,参数梯度)会被共享至服务器端,从而降低了数据揭发的风险。
然而这种梯度共享的训练方案并非绝对安全:尽管避免了中央服务器直接接触用户数据,服务器仍可使用梯度进击从交换的参数梯度中复原用户的本地训练数据。步骤是先随机生成虚拟训练数据,并以此生成虚拟梯度,再以缩小虚拟梯度与真实梯度差距为优化目标通过梯度下降反复迭代,即可复原用户私人数据。此种进击被称为梯度揭发(gradient leakage)[1] 或梯度逆转(gradient inversion)[2]。
为防卫此种梯度进击,一些研究提出用户在上传前可先对梯度信息添加噪声扰动或者进行有损变更(例如梯度裁剪或梯度稀疏化处理)来更好的保障信息安全。此前研究 [3] 也表明混淆数据表征(data representation)并依此生成梯度信息亦可有效防止梯度揭发。
那么如何检验此类隐衷防卫的安全性?最直观的想法是可引入先验信息来补偿防卫造成的信息损失。基于这一思想,本文探索一种新的梯度进击方式 – 生成式梯度揭发(Generative Gradient Leakage,GGL)。相较于传统梯度进击,GGL 通过借助生成对抗网络(Generative Adversarial Network, GAN)在公开数据集上提取的先验信息以及适应性梯度变更,可以从更少量有噪音的梯度信息中复原隐衷数据,从而获得更强的防卫耐受力。我们希望这种步骤可作为一种实证研究的手段来帮助审计隐衷防卫下的数据揭发。
这项由美国田纳西大学,美国橡树岭国家尝试室,和谷歌共同完成的研究已被 CVPR 2022 接收。
论文地址:https://arxiv.org/pdf/2203.15696.pdf
项目地址:https://github.com/zhuohangli/GGL
步骤
给定训练数据 x,从其交换的梯度信息 y 中恢复训练数据的过程可被视为一个逆问题:
其中是前向运算符,用来计算损失并返回模型梯度。当用户在本地采取防卫措施时,问题变为:
其中是用户施加的有损梯度变更,而是随机噪声。由于此问题高度非线性且不适定,以往的步骤试图通过如下形式来求解:
其中是一种距离度量,而是标准图象先验(如 total variation)。尽管这种步骤可以有效从真实梯度中复原训练图象,当面临低保真且有噪声的梯度信息时,往往难以复原出真实的自然图片。
图 1 – 步骤整体思想
近年来深度学习模型已在压缩感知中被作为图片先验广泛运用。受此启发,本文利用在公开数据集上预训练的生成模型(GAN)作为先验,在 GAN 的潜在空间中寻找最接近真实图片梯度的隐形表达,以此来降低搜索空间并提升生成图片质量,同时在优化过程中可以采取相同变更进行适应性进击。给定预训练生成模型,我们求解以下优化问题:
其中为 GAN 的潜在空间,而是正则化项。
由于此优化问题非凸,选取合适的优化策略对于求解后生成的图象质量非常重要。此前梯度进击中多选取基于梯度的优化算法,如 Adam 和 L-BFGS。然而这类优化器的效验非常依赖起始点的选择,往往需要多次尝试才能找到相对合适的解。并且我们发现,对于复杂的生成器,梯度优化算法非常容易收敛至局部最优,导致最后复原效验很差。因此,我们探索了两种无梯度的优化算法,即 Bayesian Optimization (BO) 和 Covariance Matrix Adaptation Evolution Strategy (CMA-ES)。
尝试
本文在 ImageNet 图象分类和 CelebA 人脸数据集上进行了尝试验证。图 1 和表 1 分别定性和定额地比较了不同优化步骤的复原效验。可以看出基于梯度和无梯度优化算法在 CelebA 数据集上复原效验相近。然而,在更复杂的 ImageNet 数据集上,无梯度优化步骤的复原结果明显优于基于梯度的算法,其中,CMA-ES 复原效验最优。因此,GGL 选取 CMA-ES 在作为默认优化器进行后续尝试。
图 2 – 不同优化器效验的视觉比较
表 1 – 不同优化器效验的定额比较
图 3 和图 4 分别在 CelebA 和 ImageNet 数据集上比较了 GGL 和现存进击步骤在面临不同防卫的情况下的复原效验。从视觉比较及表 2 的定额结果中可以看到,相比于其他复原步骤,借助于生成模型的图片先验,GGL 即便是在面临较强的防卫步骤时也可以从有损失的梯度中有效复原出大部分的图片信息。
图 3 – CelebA 尝试结果
图 4 – ImageNet 尝试结果
表 2 – 定额比较结果
图 5 展示了 GGL 面临梯度噪声和梯度剪裁,以及两者结合的防卫情况下的复原效验。可以看到,与仅添加噪声或梯度剪裁相比,当面临梯度噪声 + 剪裁时,GGL 复原图片的质量有所下降,但仍可一定程度上复原原始图片的信息。
图 5 – 组合防卫结果
通过利用在公开数据集上提取的先验信息以及适应性梯度变更,GGL 在面临一些隐衷防卫时仍可有效复原出大部分图片信息,从而可以作为一种审计隐衷手段来分析数据揭发风险。
参考文献
[1] Zhu, Ligeng, et al. "Deep leakage from gradients." Advances in Neural Information Processing Systems. 2019.
[2] Geiping, Jonas, et al. "Inverting gradients-how easy is it to break privacy in federated learning?." Advances in Neural Information Processing Systems. 2020.
[3] Sun, Jingwei, et al. "Soteria: Provable defense against privacy leakage in federated learning from representation perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.