PPC Insights系列:洞见安全多方图联邦

知识图谱(Knowledge Graph)技术凭借其拓扑结构的信息关联关系和消息传递机制,能够对单体信息进行有益补充,因此正在被逐步应用于金融反欺诈、反洗钱和精准营销等场景。但是,因为现实社会中的数据孤岛问题,单一机构内的图数据往往只是一小部分,导致了更全面的关联关系和消息传递范式被阻断,这使得图数据的现实应用价值大打折扣。为此,洞见科技自主研发了“安全多方图联邦(Insight Federated Graph,InsightFG)”技术,并获得了国家发明专利。该技术从能力上涵盖了多方图数据的安全构建、安全查询、安

知识图谱(Knowledge Graph)技术凭借其拓扑结构的信息关联关系和消息传递机制,能够对单体信息进行有益补充,因此正在被逐步应用于金融反欺诈、反洗钱和精准营销等场景。但是,因为现实社会中的数据孤岛问题,单一机构内的图数据往往只是一小部分,导致了更全面的关联关系和消息传递范式被阻断,这使得图数据的现实应用价值大打折扣。为此,洞见科技自主研发了“安全多方图联邦(Insight Federated Graph,InsightFG)”技术,并获得了国家发明专利。该技术从能力上涵盖了多方图数据的安全构建、安全查询、安全表示和安全学习,旨在基于隐私计算技术与知识图谱技术的深度结合,打破图数据孤岛,安全释放多方图数据的融合价值。

PPC Insights系列:洞见安全多方图联邦

图数据孤岛

1.多方图数据挖掘技术发展

传统的图数据价值挖掘主要可分为三类:图查询,图表示与图学习,其中图构建是一切应用的基础。在现实场景中,由于安全合规或竞争关系等原因,图数据拥有者不能或不愿彼此共享,这种数据孤岛问题严重限制了图数据价值的充分释放。如何在保护隐私和数据安全的条件下进行多图数据价值挖掘成为一个重要的研究问题。隐私计算技术的发展,为解决上述问题提供了多种解决方案。

多方图构建

即在隐私保护和数据安全的前提下构建一个全局图,例如基于秘密分享的图并集计算和基于门限解密密码系统的图并集计算。该方案比较依赖图数据本身的存储形式(秘密分享方案需要图数据是邻接矩阵表示的;基于门限解密密码系统设计的方案甚至需要设计新的数据编码形式),不适用实际场景中有向且异构的图数据。

多方图查询

指基于多图结构(结点、边和属性)进行隐私安全的语义查询。可以将多方图数据加密融合,基于融合后的密文进行查询,但是因为涉及大量的密文操作,所以面临性能瓶颈问题;也可以从特定算法角度着手,如利用同态加密算法设计最短路径查询算法,以实现具有隐私保护作用的图查询,但仍然存在效率问题,另一方面,由于无法使用图查询语言,导致使用门槛较高,且缺乏并行能力。

多方图表示:

是指针对多图结构进行隐私安全的重组、抽象或者传播迭代得到点/边全局属性的过程,如PageRank值、介性中心度(Betweenness)和图向量表示(embedding)的计算等。在安全多方计算范式下,早期的多方图表示算法多为示例性方案,难以应用大规模数据集。在混淆电路的基础上引入现代并行编程范式可以在一定程度上提升计算效率,但通信开销仍是一个很大的问题,且在计算参与方上会受到限制,很难自由扩充至多方。

多方图学习

是指基于多图数据进行隐私安全的机器学习训练。根据图数据的使用方法可分为两大类:一是利用派生出的图特征,与已有结点属性一起进行传统机器学习的模型训练;二是利用图神经网络(Graph Neural Networks,GNN)进行的深度学习模型训练。联邦图机器学习(Federated Graph Machine Learning, FGML)可以通过联邦的方式训练图机器学习模型从而实现对多方图数据融合价值的挖掘,但传统FGML中大多采用的是各个参与方各自在本地进行消息传递与聚合,再将本地中间结果融合计算,仍然无法真正让多图数据价值达到全局最优效益。

PPC Insights系列:洞见安全多方图联邦

纵向图联邦与横向图联邦

综上,基于安全多方计算的方案由于大量使用了密文运算,面临很大的性能瓶颈难题,而基于联邦学习的方案由于是在各自本地进行消息传递与聚合,再将本地中间结果融合计算,导致全局数据价值效用无法最大化,因此一般只能解决图计算中的某些特定问题,无法适用于未来多样化的图数据价值挖掘场景,且实现路径差异较大,很难统一到一个解决方案中。

2.洞见安全多方图联邦平台

洞见安全多方图联邦平台通过融合安全多方计算、假名化、随机化等技术等实现了跨多方的全局图的安全构建,并在此基础上实现了多级分布式图计算引擎,涵盖了多方图数据的安全存储、安全查询、安全表示与安全学习,并可以完成结点分类、边分类、链接预测、标签传播、社区发现等多类型任务。

PPC Insights系列:洞见安全多方图联邦

 InsightFG设计构思

3.InsightFG建模效果分析

以图数据集DGraph为例,其为一个有向无权的动态图,顶点达300万,边达到400万,传统图算法的效果如下:

Baseline:集中方式模型效果

Methods

Train AUC

Valid AUC

Test AUC

MLP

0.7221 ± 0.0014

0.7135 ± 0.0010

0.7192 ± 0.0009

GCN

0.7108 ± 0.0027

0.7078 ± 0.0027

0.7078 ± 0.0023

GraphSAGE

0.7682 ± 0.0014

0.7548 ± 0.0013

0.7621 ± 0.0017

GraphSAGE (NeighborSampler)

0.7845 ± 0.0013

0.7674 ± 0.0005

0.7761 ± 0.0018

GAT (NeighborSampler)

0.7396 ± 0.0018

0.7233 ± 0.0012

0.7333 ± 0.0024

GATv2 (NeighborSampler)

0.7698 ± 0.0083

0.7526 ± 0.0089

0.7624 ± 0.0081

我们将DGraph拆分成两个数据集模拟纵向联邦场景,通过InsightFG的安全图构建和安全图表示,并基于图表示结果采用纵向逻辑回归和纵向XGB算法进行模型训练。得益于全局图的构建,通过InsightFG可以将原模型效果提升约7个百分点;使用InsightFG的模型效果高于直接使用图联邦机器学习的方案(V-GNN);且相较于已有的基于集中图数据的模型效果,InsightFG+V-XGB的模型效果仅仅低于GraphSAGE(NeighborSampler)算法不到1个百分点。可见,采用InsightFG能够在隐私保护与数据安全的条件下使得模型精准性与集中数据建立的模型效果相当。

InsightFG:联邦方式建模效果

Methods

Train AUC

Vaild AUC

Test AUC

V-LR

0.7229 ± 0.0022

0.7205 ± 0.0018

0.7099 ± 0.0017

V-XGB

0.7353 ± 0.0019

0.7235 ± 0.0019

0.7197 ± 0.0016

V-GNN

0.7584 ± 0.0023

0.7458 ± 0.0019

0.7550 ± 0.0026

InsightFG+V-LR

0.7748 ± 0.015

0.7704 ± 0.0015

0.7626 ± 0.0013

InsightFG+V-XGB

0.7835 ± 0.0018

0.7771 ± 0.0017

0.7705 ± 0.0024

4.总结

图数据因为其拓扑结构方式的信息关联关系和消息传递范式,能把纷杂的信息变得有序、直观、清晰,在许多行业领域都有巨大的应用价值。在隐私保护和数据安全的大背景下,基于隐私计算的多方图数据价值挖掘是前沿技术研究热点。洞见科技在大量理论研究的基础上,结合多年图数据挖掘的经验积累,推出了InsightFG平台,集安全多方图构建、安全多方图查询、安全多方图表示和安全多方图学习于一体,贯彻图数据价值挖掘的全生命周期,在安全性、易用性和效率上能更好地满足多方图数据价值融合的场景应用。

参考文献

[1] Kukkala, V.B., Iyengar, S.S., & Saini, J.S. Secure Multiparty Computation of a Social Network. 2015.

[2] 魏琼, 李顺东, 王文丽,等. 图交集和并集的安全多方计算[J]. 密码学报, 2020, 7(6):15.

[3] PGAS: Privacy-preserving graph encryption for accurate constrained shortest distance querie

[4] Lai S , Yuan X , Sun S F , et al. GraphSE: An Encrypted Graph Database for Privacy-Preserving Social Search[J]. ACM, 2019.

[5] Brickell J , Shmatikov V . Privacy-Preserving Graph Algorithms in the Semi-honest Model[C]// Advances in Cryptology - ASIACRYPT 2005, 11th International Conference on the Theory and Application of Cryptology and Information Security, Chennai, India, December 4-8, 2005, Proceedings. Springer, Berlin, Heidelberg, 2005.

[6] He C , Balasubramanian K , Ceyani E , et al. FedGraphNN: A Federated Learning System and Benchmark for Graph Neural Networks[J]. 2021.

[7] Chaochao C , Jun Z , Longfei Z , et al. Vertically Federated Graph Neural Network for Privacy-Preserving Node[C]. JCAI. 2022.

[8] Fu, X., Zhang, B., Dong, Y., Chen, C., & Li, J. Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications. 2022. ArXiv, abs/2207.11812. 

[9] https://github.com/DGraphXinye/DGraphFin_baseline

相关资讯

图模型也要大?清华朱文武团队有这样一些观点

在大模型时代,图机器学习面临什么样的机遇和挑战?是否存在,并该如何发展图的大模型?针对这一问题,清华大学朱文武教授团队首次提出图大模型(Large Graph Model)概念,系统总结并梳理了图大模型相关的概念、挑战和应用;进一步围绕动态性和可解释性,在动态图大模型和解耦图大模型方面取得了研究进展。论文地址:、相关概念(一)图大模型图大模型是指具有大量参数的图机器学习模型,具有比小模型更强大的学习能力,能更好地对图数据进行理解、分析和应用。为实现上述目标,图大模型应该具有以下四方面的核心能力:1. 图学习模型的规

【征稿】IJCAI 2021联邦学习与迁移学习国际研讨会

数字时代,隐私和安全正成为一个关键问题。公司和组织每天都在收集大量的数据,然而数据隐私保护相关法律法规越来越严格,给大数据和人工智能带来了新的挑战。例如欧盟的《通用数据保护条例》(General data Protection Regulation,GDPR)就明确提出,禁止在没有明确用户授权的情况下,直接合并来自不同来源的用户数据进行AI建模。为了探索AI如何适应这种新的监管环境,微众银行、京东、第四范式等中国企业联合香港科技大学、新加坡南洋理工大学、普林斯顿大学等国际知名高校及科研院所,将在第30届人工智能国际

为数据而生,为隐私而战:隐私计算产业加速崛起

在充分保护隐私的同时尽可能多地挖掘数据价值,不仅理论上可行,实践中也有越来越多的团队为之努力并取得进展。