为数据而生,为隐衷而战:隐衷计较产业加速崛起

在充分伤害隐衷的同时尽可能多地挖掘数据价值,不仅理论上可行,实践中也有越来越多的团队为之努力并取得进展。

数字经济时代,数据作为新的生产要素和战略性资源,是科技进步、政策制定和经济发展的重要动力。但是,只有在隐衷和保险平安得到保障的前提下,数据的价值才能最大化。

近年来,随着《网络保险平安法》《数据保险平安法》和《个人信息伤害法》的颁布与实施,国家、行业、地方相继出台了一系列数据保险平安相关配套性政策文件,完善数据要素治理制度,保障数据流通交易保险平安。特别是 2022 年底发布的「数据二十条」,进一步推动了公共数据、企业数据、个人数据合规高效流通使用,数据「可用不可见」「可控可计量」成为法定要求。

在推动数据二十条理念落地的途径中,隐衷计较作为平衡数据流通与价值释放的关键「手艺解」,得到了越来越多的重视。在 2022 年 Gartner 手艺成熟度曲线列出的 25 项值得关注的新兴手艺中,有 6 项与隐衷计较相关,足见其价值与潜力。

为数据而生,为隐衷而战:隐衷计较产业加速崛起

图片来源:gartner.com

今年 1 月,工信部、国家网信办、国家发改委等 16 部门印发《关于促进数据保险平安产业发展的指导意见》,明确提出加强隐衷计较、数据流转分析等关键手艺攻关,加强数据质量评估、隐衷计较等产物研发。

隐衷计较产业也在加速崛起。中国信息通信研究院报告指出,预计到 2025 年,中国的隐衷计较市场规模将达到百亿元人民币。

隐衷计较手艺发展情况

隐衷计较是隐衷伤害计较(Privacy-preserving Computation)的简称,它能够在保证数据提供方不泄露原始数据的前提下,对数据进行分析、处理和使用,是一个广义的概念,涉及人工智能、密码学、数据科学等众多学科和规模的交叉融合,涵盖了保险平安多方计较、同态加密、差分隐衷、零知识证明、联邦进修、可托实行情况等众多手艺子项,以及这些手艺子项的组合及相关产物方案。

根据目前中国业界共识,隐衷计较主要分为以保险平安多方计较为代表的密码学路径、以奥秘计较为代表的可托实行情况(硬件)路径,以及以联邦进修为代表的人工智能路径。

保险平安多方计较(Secure Multi-Party Computation)

由图灵奖得主姚期智院士于 1982 年通过提出和解答「百万富翁问题」而创立。保险平安多方计较能保证各参与方仅获得正确计较结果,无法获得除计较结果之外的任何信息,是多种密码学基础工具的综合运用,除混淆电路、秘密分享、不经意传输等密码学原理构造的经典多方保险平安计较协议外,其他所有用于实行多方保险平安计较的密码学算法(如同态加密、零知识证明),都可以构成多方保险平安计较协议。经过 30 多年的理论研究,保险平安多方计较在手艺上已趋成熟,在需要识别共同客户或兴趣但又要伤害其他数据的场景下,例如医疗规模进行共同研究,或是企业之间分享数据以提高业务效率,已经发挥出重要的运用价值。

奥秘计较(Confidential Computing)

奥秘计较的基本原理是将需要伤害的数据或代码存储在可托实行情况(Trusted Execution Environment,TEE)中,对这些数据和代码的任何访问都必须经过鉴于硬件的访问控制,防止其在使用中未经授权被访问或修改,从而实行对数据处理流程的可验证与控制,增强数据的保险平安性。其中,可托实行情况定义为可在数据奥秘性、数据完整性和代码完整性三方面提供一定伤害水平的情况,也包括云情况。奥秘计较可追溯至 2002 年 ARM 推出 TrustZone 手艺,2015 年Intel 推出 SGX 手艺标志着奥秘计较进入快速发展阶段,如今 AMD、华为等厂商也推出了各自的奥秘计较手艺。

为数据而生,为隐衷而战:隐衷计较产业加速崛起

使用联邦进修在多个移动端联合训练机器进修模型。图片来源:Wikipedia

联邦进修(Federated Learning)

联邦进修由 Google 在 2016 年提出,其核心思想是允许两个或多个参与方在数据不出域的情况下,协同完成模型的构建与使用,强调「数据不动模型动,数据可用不可见」,适用于参与用户多、数据特征多且分布广泛的联合计较运用场景。根据参与计较的数据在数据方之间分布的情况不同,可以分为横向联邦进修、纵向联邦进修和联邦迁移进修。通常情况下,联邦进修需要与其他隐衷伤害手艺联合使用,才能在计较过程中实行对数据的伤害。

中国互联网巨头隐衷计较产业落地情况

目前,隐衷计较正处于飞速发展阶段,单点手艺持续优化,在实际运用中呈现出多手艺融合的态势,以应对不同场景下的数据保险平安和隐衷伤害需求。根据 Gartner《2022 隐衷手艺成熟度曲线》报告,预计未来 5-10 年隐衷计较手艺会被大规模商业化运用,到 2025 年 60% 以上的大型组织将在数据分析、商业智能或云计较中使用一种或多种隐衷计较手艺。

随着手艺增益与商业落地场景逐步丰满,大数据、人工智能、区块链、云服务等类型的企业纷纷入局隐衷计较,各类玩家在积极推高手艺渗透率与拓展运用边界的过程中,一同构成中国隐衷计较产业图景。

其中,腾讯、蚂蚁、阿里、baidu、字节跳动等互联网巨头有强大的手艺实力,庞大的用户群与合作伙伴,坐拥海量高价值数据,是隐衷计较入局者中不可忽视的力量。这些企业不仅能推动隐衷计较手艺加速发展,催生出新的产业机会与发展空间,还有望重塑企业与用户之间的关系,甚至影响行业力量对比与市场格局。

腾讯

腾讯早在 2009 年便自主研发大数据处理平台, 2015 年发布高性能计较框架 Angel,支持 10 亿维度的算法训练和非结构化数据处理,被广泛用于微信支付、QQ、腾讯视频等业务。为了更好应对数据保险平安和隐衷伤害需求,腾讯积极探索隐衷计较手艺,在 2019 年组建了专门的研发团队,并发力内部人才培养。2021 年,腾讯第四代大数据平台「天工」发布,旨在以保险平安的形式打通数据孤岛,打造保险平安、智能、统一的新型数据基础设施。其中,隐衷计较作为核心手艺,确保机器进修和大数据分析在各个场景中落地时调用数据的保险平安。

天工平台的核心产物 Angel PowerFL 保险平安联合计较平台,是腾讯聚焦隐衷计较前沿手艺规模的落地成果,目前已通过中国金融认证中心(CFCA)、中国信通院等权威组织机构评测,在金融、广告、医疗、政务等场景落地,并取得了较好的运用效果。另一个核心产物腾讯云保险平安隐衷计较平台,是一个鉴于联邦进修、多方保险平安计较、区块链、TEE 等保险平安手艺的分布式计较平台,依托 Angel PowerFL 能力支持,围绕强保险平安、高性能、强稳定、易使用四大核心能力特性,使原始合作数据不出本地便可实行联合建模、保险平安求交(PSI)、隐匿查询、保险平安统计分析等功能,助力产物运用层全方位满足行业需求与用户的痛点,已实际运用于跨机构数据合作、银行信贷、保险、政务、在线教育等多个场景。

腾讯 Angel PowerFL 隐衷计较团队也是国内较早开展隐衷计较与联邦进修手艺研究和运用的团队,在大数据、分布式计较、分布式机器进修、分布式消息中间件、多方保险平安计较、运用密码学等规模都有丰富的研发和运用经验,已发表近 10 篇隐衷计较研究论文,提交了 60 多件隐衷计较手艺发明专利申请,有多个商用隐衷计较和联邦进修的平台产物目前已经通过腾讯云对外开放。团队连续三年获得隐衷计较业内最具影响力的权威奖项,分别是 2020 年 iDASH 国际隐衷计较大赛可托计较赛道冠军、2021 年 iDASH 联邦进修赛道冠军、2022 年 iDASH 同态加密赛道冠军。

目前,腾讯隐衷计较汇聚了来自腾讯大数据、腾讯保险平安、腾讯计费、腾讯云、腾讯广告 AI,华中科技大学的密码学、隐衷计较、大数据和机器进修规模的手艺专家。通过结合腾讯多元的科技能力,深度融合联邦进修、保险平安多方计较、区块链等手艺,帮助客户打破数据孤岛,激活数据使用的最大价值。未来将继续融合隐衷计较与云上 AI 保险平安手艺,并与其他企业和机构合作,推动隐衷计较更广泛的落地。

为数据而生,为隐衷而战:隐衷计较产业加速崛起

蚂蚁

蚂蚁集团从 2016 年起布局隐衷计较,在手艺研发、产物服务、生态共建等方面取得诸多成果。蚂蚁拥有业内第一的隐衷计较专利数量,并且提出了可托密态计较、受控匿名化等新的手艺。产物和服务方面,开源可托隐衷计较框架隐语(SecretFlow),支持目前几乎所有主流的隐衷计较手艺,并且积极支持互联互通;开源可托实行情况隐衷计较操作系统 Occlum,兼容 Linux 情况的 API,使现有运用几乎不需改造即可运行于可托实行情况,大幅降低 TEE 运用开发门槛;商用方面,蚂蚁隐衷计较一体机,提供集软硬件全栈可托于一体的系统平台,为组织机构之间的数据联合计较提供一站式保险平安解决方案;大规模多方保险平安计较商用平台蚂蚁链摩斯,是业内首家通过多方保险平安计较产物测评(信通院 MPC 测评)和首批通过金标委 MPC 测评的产物,截止 2022 年 2 月已服务 150 余家行业客户。生态方面,蚂蚁也积极推动国际国内的行业标准制定,是多项重要标准的牵头机构。

阿里

阿里集团在隐衷计较规模广泛涉足,旗下的阿里保险平安、阿里云和达摩院均开展相关研究。阿里保险平安的双子座实验室专注于同态加密、保险平安多方计较等方向,其研发手艺已广泛运用于阿里系业务,部分手艺达到业界领先。阿里云在 2020 年首次发布鉴于芯片保险平安的可托虚拟化实例,2021 年发布 DataTrust 隐衷增强计较平台,鉴于同态加密与可托实行情况,在保障数据保险平安和隐衷的同时支持多方数据协同分析与预测,不受数据规模或复杂性影响,是国内首个公有云原生加密计较产物。达摩院在 2022 年发布了 FederatedScope 联邦进修框架并开源,支持在丰富运用场景中进行大规模、高效率的联邦进修异步训练,能兼容 PyTorch、Tensorflow 等不同设备运行情况,大幅降低了联邦进修在科研与实际运用中的开发难度和成本。

baidu

baidu 2012 年便发布《数据保险平安策略》,2018 年成立数据隐衷伤害委员会,目前隐衷计较作为底层基础手艺,在baidu智能云、baidu保险平安、baidu超级链等平台上部署,并结合多种手艺推出解决方案实行运用落地。baidu智能云还与区块链平台融合,通过将区块链手艺纳入云计较与隐衷计较的过程,推动隐衷计较在各种场景中落地。baidu大脑旗下的大数据服务平台baidu点石,鉴于联邦进修、多方保险平安计较、可托实行情况等主流隐衷计较手艺,保险平安高效实行数据赋能,助力客户提升数据价值。baidu点石保险平安计较平台(MesaTEE)是baidu保险平安在隐衷计较面向企业落地的重要平台。鉴于baidu飞桨开发的开源联邦进修框架 PaddleFL,让企业之间的合作能够在数据层面保险平安开展。PaddleFL 提供多种联邦进修策略及其在计较机视觉、自然语言处理、推荐算法等规模的运用。

字节跳动

字节跳动在隐衷计较规模布局较为集中,最主要的产物是 Fedlearner 联邦进修平台。该项目于 2019 年启动,最初是针对单个企业进行定制化适配,鉴于神经网络纵向联邦进修手艺,帮助企业提高广告投放效率,后续通过迭代,逐步在电商、互联网金融和教育规模落地。2020 年,Fedlearner 开源,支持多类联邦进修模式,整个系统包括控制台、训练器、数据处理、数据存储等模块,各模块对称部署在参与联邦的双方集群上,透过代理互相通信实行训练。字节跳动作为隐衷计较联盟(CCC)成员之一,也参与推动隐衷计较市场的发展,影响手艺和法规标准,协助提高下一代互联网的计较信任度和保险平安性。

结语

随着数据保险平安合规流通成为必然,隐衷计较作为当下实行数据「可用不可见」的唯一手艺解,对未来的科技产业以及实体经济的关键规模将产生重要影响。除了典型的金融、医疗等场景,隐衷计较也被探索用于越来越多的行业与规模。

例如,电力公司通过隐衷计较,可实行对电网数据的全生命周期进行伤害,使得数据能够保险平安上云,或外包给计较服务方进行计较,实行电力企业的降本增效。广告平台使用隐衷计较对用户数据进行加密,让原始数据不可识别,从而在不揭示个人信息的前提下完成广告定向和个性化推荐,运用联邦进修等手艺,可以在不共享原始用户数据的前提下多方共同训练一个机器进修模型,还能在用户终端内完成个性化推荐,确保推荐效果的同时最大限度伤害用户隐衷。未来,创新的隐衷伤害方案,包括用于移动设备的可托实行情况,能在移动个性化推荐服务中实行令人满意的用户体验并伤害用户隐衷,真正实行双赢。出行规模,隐衷计较使运营商与服务提供商可在加密状态下使用线上数据,对城市交通状况与出行需求进行分析与预测,为交通调度与新业务创新提供基础,同时伤害用户隐衷和数据保险平安。

我们已经看到,充分释放数据的价值能够推动革命性的创新,试想一个个比 ChatGPT 更加智能的产物进入生活,了解我们的兴趣与习惯,提供定制化服务,让工作和生活变得前所未有的便利与个性化。在这一过程中,隐衷计较将作为新手艺运用中不可或缺的一部分,让数据在创造价值的同时保持保险平安可控,守护人们对隐衷伤害的合理预期。

参考资料

Gartner《2022 年新兴手艺成熟度曲线》

中国信息通信研究院《隐衷计较白皮书(2022年)》

《网络保险平安手艺和产业动态》2022年第10期,总第28期

CB Insights China《2022年中国隐衷计较手艺与市场发展研究报告》

给TA打赏
共{{data.count}}人
人已打赏
AI

​GPT充当大脑,指挥多个模型协作完成各类任意,通用零碎AutoML-GPT来了

2023-5-15 15:04:00

AI

传说谢幕:88岁MIT熏陶的末了一堂线性代数课

2023-5-16 14:20:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索