知识图谱(Knowledge Graph)技术凭借其拓扑结构的信息关联关系和消息传递机制,能够对单体信息举行有益补充,因此正在被逐步应用于金融反欺诈、反洗钱和精准营销等场景。但是,因为现实社会中的数据孤岛问题,单一机构内的图数据往往只是一小部分,导致了更全面的关联关系和消息传递范式被阻断,这使得图数据的现实应用价格大打折扣。为此,洞见科技自主研发了“宁静多方图联邦(Insight Federated Graph,InsightFG)”技术,并获得了国家发明专利。该技术从能力上涵盖了多方图数据的宁静建立、宁静查问、宁静表明和宁静进修,旨在鉴于隐衷较量争论技术与知识图谱技术的深度结合,打破图数据孤岛,宁静释放多方图数据的交融价格。
图数据孤岛
1.多方图数据发掘技术发展
传统的图数据价格发掘主要可分为三类:图查问,图表明与图进修,其中图建立是一切应用的基础。在现实场景中,由于宁静合规或竞争关系等原因,图数据拥有者不能或不愿彼此共享,这种数据孤岛问题严重限制了图数据价格的充分释放。如何在保护隐衷和数据宁静的条件下举行多图数据价格发掘成为一个重要的研究问题。隐衷较量争论技术的发展,为解决上述问题提供了多种解决规划。
多方图建立
即在隐衷保护和数据宁静的前提下建立一个全部图,例如鉴于秘密分享的图并集较量争论和鉴于门限解密密码系统的图并集较量争论。该规划比较依赖图数据本身的存储形式(秘密分享规划需要图数据是邻接矩阵表明的;鉴于门限解密密码系统设计的规划甚至需要设计新的数据编码形式),不适用实际场景中有向且异构的图数据。
多方图查问
指鉴于多图结构(结点、边和属性)举行隐衷宁静的语义查问。可以将多方图数据加密交融,鉴于交融后的密文举行查问,但是因为涉及大量的密文操作,所以面临性能瓶颈问题;也可以从特定算法角度着手,如利用同态加密算法设计最短路径查问算法,以实现具有隐衷保护作用的图查问,但仍然存在效率问题,另一方面,由于无法使用图查问语言,导致使用门槛较高,且缺乏并行能力。
多方图表明:
是指针对多图结构举行隐衷宁静的重组、抽象或者传播迭代得到点/边全部属性的过程,如PageRank值、介性中心度(Betweenness)和图向量表明(embedding)的较量争论等。在宁静多方较量争论范式下,早期的多方图表明算法多为示例性规划,难以应用大规模数据集。在混淆电路的基础上引入现代并行编程范式可以在一定程度上提升较量争论效率,但通信开销仍是一个很大的问题,且在较量争论参与方上会受到限制,很难自由扩充至多方。
多方图进修
是指鉴于多图数据举行隐衷宁静的机器进修训练。根据图数据的使用方法可分为两大类:一是利用派生出的图特征,与已有结点属性一起举行传统机器进修的模型训练;二是利用图神经网络(Graph Neural Networks,GNN)举行的深度进修模型训练。联邦图机器进修(Federated Graph Machine Learning, FGML)可以通过联邦的方式训练图机器进修模型从而实现对多方图数据交融价格的发掘,但传统FGML中大多采用的是各个参与方各自在本地举行消息传递与聚合,再将本地中间结果交融较量争论,仍然无法真正让多图数据价格达到全部最优效益。
纵向图联邦与横向图联邦
综上,鉴于宁静多方较量争论的规划由于大量使用了密文运算,面临很大的性能瓶颈难题,而鉴于联邦进修的规划由于是在各自本地举行消息传递与聚合,再将本地中间结果交融较量争论,导致全部数据价格效用无法最大化,因此一般只能解决图较量争论中的某些特定问题,无法适用于未来多样化的图数据价格发掘场景,且实现路径差异较大,很难统一到一个解决规划中。
2.洞见宁静多方图联邦平台
洞见宁静多方图联邦平台通过交融宁静多方较量争论、假名化、随机化等技术等实现了跨多方的全部图的宁静建立,并在此基础上实现了多级分布式图较量争论引擎,涵盖了多方图数据的宁静存储、宁静查问、宁静表明与宁静进修,并可以完成结点分类、边分类、链接预测、标签传播、社区发现等多类型任务。
InsightFG设计构思
3.InsightFG建模后果分析
以图数据集DGraph为例,其为一个有向无权的动态图,顶点达300万,边达到400万,传统图算法的后果如下:
Baseline:集中方式模型后果
Methods
Train AUC
Valid AUC
Test AUC
MLP
0.7221 ± 0.0014
0.7135 ± 0.0010
0.7192 ± 0.0009
GCN
0.7108 ± 0.0027
0.7078 ± 0.0027
0.7078 ± 0.0023
GraphSAGE
0.7682 ± 0.0014
0.7548 ± 0.0013
0.7621 ± 0.0017
GraphSAGE (NeighborSampler)
0.7845 ± 0.0013
0.7674 ± 0.0005
0.7761 ± 0.0018
GAT (NeighborSampler)
0.7396 ± 0.0018
0.7233 ± 0.0012
0.7333 ± 0.0024
GATv2 (NeighborSampler)
0.7698 ± 0.0083
0.7526 ± 0.0089
0.7624 ± 0.0081
我们将DGraph拆分成两个数据集模拟纵向联邦场景,通过InsightFG的宁静图建立和宁静图表明,并鉴于图表明结果采用纵向逻辑回归和纵向XGB算法举行模型训练。得益于全部图的建立,通过InsightFG可以将原模型后果提升约7个百分点;使用InsightFG的模型后果高于直接使用图联邦机器进修的规划(V-GNN);且相较于已有的鉴于集中图数据的模型后果,InsightFG+V-XGB的模型后果仅仅低于GraphSAGE(NeighborSampler)算法不到1个百分点。可见,采用InsightFG能够在隐衷保护与数据宁静的条件下使得模型精准性与集中数据建立的模型后果相当。
InsightFG:联邦方式建模后果
Methods
Train AUC
Vaild AUC
Test AUC
V-LR
0.7229 ± 0.0022
0.7205 ± 0.0018
0.7099 ± 0.0017
V-XGB
0.7353 ± 0.0019
0.7235 ± 0.0019
0.7197 ± 0.0016
V-GNN
0.7584 ± 0.0023
0.7458 ± 0.0019
0.7550 ± 0.0026
InsightFG+V-LR
0.7748 ± 0.015
0.7704 ± 0.0015
0.7626 ± 0.0013
InsightFG+V-XGB
0.7835 ± 0.0018
0.7771 ± 0.0017
0.7705 ± 0.0024
4.总结
图数据因为其拓扑结构方式的信息关联关系和消息传递范式,能把纷杂的信息变得有序、直观、清晰,在许多行业领域都有巨大的应用价格。在隐衷保护和数据宁静的大背景下,鉴于隐衷较量争论的多方图数据价格发掘是前沿技术研究热点。洞见科技在大量理论研究的基础上,结合多年图数据发掘的经验积累,推出了InsightFG平台,集宁静多方图建立、宁静多方图查问、宁静多方图表明和宁静多方图进修于一体,贯彻图数据价格发掘的全生命周期,在宁静性、易用性和效率上能更好地满足多方图数据价格交融的场景应用。
参考文献
[1] Kukkala, V.B., Iyengar, S.S., & Saini, J.S. Secure Multiparty Computation of a Social Network. 2015.
[2] 魏琼, 李顺东, 王文丽,等. 图交集和并集的宁静多方较量争论[J]. 密码学报, 2020, 7(6):15.
[3] PGAS: Privacy-preserving graph encryption for accurate constrained shortest distance querie
[4] Lai S , Yuan X , Sun S F , et al. GraphSE: An Encrypted Graph Database for Privacy-Preserving Social Search[J]. ACM, 2019.
[5] Brickell J , Shmatikov V . Privacy-Preserving Graph Algorithms in the Semi-honest Model[C]// Advances in Cryptology – ASIACRYPT 2005, 11th International Conference on the Theory and Application of Cryptology and Information Security, Chennai, India, December 4-8, 2005, Proceedings. Springer, Berlin, Heidelberg, 2005.
[6] He C , Balasubramanian K , Ceyani E , et al. FedGraphNN: A Federated Learning System and Benchmark for Graph Neural Networks[J]. 2021.
[7] Chaochao C , Jun Z , Longfei Z , et al. Vertically Federated Graph Neural Network for Privacy-Preserving Node[C]. JCAI. 2022.
[8] Fu, X., Zhang, B., Dong, Y., Chen, C., & Li, J. Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications. 2022. ArXiv, abs/2207.11812.
[9] https://github.com/DGraphXinye/DGraphFin_baseline