机器进修,尤其是深度神经网络(DNN)技巧,近年来在诸多规模取得了巨大成功,许多科技公司都将神经网络模型部署在商业产品中,提高效益。训练先进的神经网络模型需要大规模数据集、庞大的计算资源和设计者的智慧。这具体体现在:(1)深度进修模型应用的训练模型规模巨大,以 GPT-3 为例,其预训练所用的数据量达到 45TB,训练费用超过 1200 万美元,有着极高的经济成本(2)深度进修模型在训练部署到工业应用场景过程中(比如智慧金融,智慧医疗应用),需要引入金融、医疗等规模专有先验知识,因此在模型设计过程就需要引入专家的知识和经验来订制模型,这体现了人脑力的知识产权。(3)深度进修模型的训练过程,需要特定规模的海量数据作为训练资源,存在数据本身价值和知识属性。以上属性决定了经过训练的深度进修模型具有很高的商业价值和知识属性,必须将其纳入合法所有者(即创建它的一方)的知识产权。因此,从技巧上迫切需要爱护深度神经网络(DNN)模型不被非法复制、重新分发或滥用。
深度进修模型知识产权爱护问题,是一个跨学科的综合性议题,涉及计算机安全,人工智能理论与法子、知识产权爱护、法律等诸多方面。深度进修模型的盗用、非法复制、分发等,攻打者可以采用技巧手段或者非技巧手段;但要确认盗用且声明模型所有权,则是完全从技巧端来提取证据,以便从法规的角度来认证模型所有权。具体而言,(1)从计算机安全角度出发,技巧手段需要采取密码学可信的协议,来保证模型的知识产权考证和发布过程是严密可信的;(2)从人工智能理论法子角度出发,模型的所有权认证技巧需要保证不牺牲模型可用性前提下,提供可靠且鲁棒的知识产权爱护法子;(3)在法规层面,从技巧端对模型所有权提取证据之后,这些证据能成为模型所有权的依据。最终监管方要通过法规的爱护,来裁定模型所有者的知识产权,这需要相关法规来指导如何从技巧判据,来判定模型所有权。据笔者所知,目前尚未有相关的立法具体到深度进修模型知识这一子规模,模型知识产权爱护不仅需要科技事情者的参与,也需要知识产权爱护规模事情者的关注和努力。
本次研讨会定位于深度神经网络知识产权爱护研讨的前沿,展示研讨机构及高校实验室在此规模进行的最前沿的事情。分别来自德国、芬兰、马来西亚和中国的 8 位学者,就深度进修模型知识产权爱护问题,从算法、协议、安全等多个角度出发,分享了他们对模型知识产权爱护的思考和事情。
在 Talk 1 中,南京航空航天大学的薛明富老师带来了《DNN Intellectual Property Protection: Taxonomy, Attacks and Evaluations》的主题讲座,他对深度进修模型爱护法子进行了分类性的总结,从模型场景、爱护机制、爱护能力、目标模型等维度,对模型知识产权爱护研讨进行了梳理,并且总结了针对已有的法子,存在的攻打和挑战,并给出了系统评估的相关建议。这场讲座为模型爱护规模总结了研讨现状和发展脉络。
来自德国 Fraunhofer AISEC 研讨院的 Franziska Boenisch,同样针对神经网络水印技巧分享了视角下的模型知识产权爱护的综述研讨事情。Franziska 从神经网络水印技巧的需求、算法应用、威胁模型等角度回顾了现有的研讨事情,以神经网络水印技巧的可用性、鲁棒性、可靠性、完整性等要求为主线,串联回顾了已有的模型水印研讨,指出了现有的研讨存在几大待解决的问题,包括缺乏主动爱护机制,算法数据类型案例有限和司法保障和技巧研讨并轨。
作为深度进修模型知识产权爱护的资深研讨者,毕业自马来亚大学以及微众银行 AI 项目组算法研讨员 Kam Woh Ng 分享了他所提出的用数字护照爱护模型知识产权的法子。Kam Woh Ng 分析了神经网络模型知识产权爱护的相关研讨的最新进展后发现,一种旨在通过伪造水印来对所有权考证产生疑问的模糊攻打,对多种基于水印的 DNN 所有权考证法子对 DNN 的知识产权爱护构成了严重威胁。
针对上述安全漏洞,Kam Woh Ng 提出了一种新颖的基于数字护照的 DNN 所有权考证规划,该规划既对网络剪枝及微调等修改具有鲁棒性,又能够抵御模糊攻打。嵌入数字护照的关键在于,以一种巧妙的方式设计和训练 DNN 模型,从而使原 DNN 的事情性能在使用伪造护照时大大降低。也就是说,真正的数字护照不仅可以依据预定义的数字签字来进行考证,而且还可以根据 DNN 模型的事情性能来认定。Kam Woh Ng 详细分享如何使用数字护照爱护 DNN 以及抵御模糊攻打。
Kam Woh Ng 的 Passport 模型爱护法子提供了一大类通用的模型爱护思路,在本次研讨会中,还有其他研讨者也分享了模型水印法子具体应用在图象生成、图象概述等模型中的事情。
来自马来西亚马来亚大学的 Ding Sheng Ong,针对图象生成深度进修模型,分享了题为《Protecting Intellectual Property of Generative Adversarial Networks From Ambiguity Attacks(GAN 的知识产权爱护法子)》的讲座。
虽然目前已有用于卷积神经网络(CNN)的 IPR 爱护法子,但是却不能直接使用在生成对抗网络(GANs)——另一种被广泛用于生成逼真图象的深度进修模型。因此,本文提出了一种基于黑盒与白盒的 GAN 模型 IPR 爱护法子。实验结果表明,本法子并不会损害 GAN 本来的性能(如图象生成、图象超分辨率以及样式转换)。本法子也能够抵御去除嵌入的水印(removal)和模糊(ambiguity)攻打。分享中解说了如何基于黑盒与白盒的方式爱护对抗生成网络(GANs),以及如何抵御各种水印攻打。
来自马来西亚马来亚大学的 Jian Han Lim, 针对图象标注(image caption)神经网络模型,带来了题为《Protect, Show, Attend and Tell: Empower Image Captioning Model with Ownership Protection》的分享。Jian Han Lim 指出,现有的深度神经网络知识产权 (IPR) 爱护通常 i) 仅专注于图象分类任务,以及 ii) 遵循标准的数字水印框架,该框架通常用于爱护多媒体和视频内容的所有权。Jian Han Lim 论证了当前的数字水印框架不足以爱护通常被视为人工智能前沿之一的图象标注任务。作为补充,本文研讨并提出了在循环神经网络中的两种不同签字水印嵌入规划。从理论和经验的角度来看,其证实伪造的密钥会产生无法使用的图象标注模型,从而阻止了侵权的违规行为。该事情是第一个对图象字幕任务提出所有权爱护的事情。此外,大量实验表明,所提出的法子不会影响 Flickr30k 和 MS-COCO 数据集上所有通用字幕指标的原始图象标注任务性能,同时它能够承受去除攻打和歧义攻打。
针对深度进修常见任务和模型,已有上述所示多种神经网络爱护算法案例提供算法支撑。那么如何设计可行的通信协议,指导模型所有权考证的实际执行?
来自上海交通大学的李方圻针对模型所有权考证的场景、协议和前景进行了题为《Regulating Ownership Verification for Deep Neural Networks: Scenarios, Protocols, and Prospects》的分享。
李方圻介绍说,随着深度神经网络的广泛应用,将其作为知识产权加以爱护的必要性变得显而易见,研讨者已经提出了许多水印规划来识别深度神经网络的所有者并考证所有权。然而,大多数研讨都专注于水印嵌入而不是可证实考证的协议,为了弥合这些建议与现实世界需求之间的差距,李方圻介绍了三种场景下的深度进修模型知识产权爱护:所有权证实、联邦进修和知识产权转移,展示了已建立的密码原语和人工智能设置之间的结合,这可以构成实用且可证实的机器进修安全性的基础。
已有的深度进修模型知识产权爱护法子主要着眼于深度神经网络水印的算法实践和鲁棒性挑战,目前没有把模型水印算法实践到分布式神经网络训练的研讨。来自上海交通大学以及微众银行 AI 项目组的李博闻带来了题为《联邦深度进修模型所有权爱护》的讲座:考虑一个不完全信任的联邦进修系统中,假定各参与方能够按照联邦法则来进行模型更新和协同训练,但彼此不泄露私有本地数据和私密签字。在这种设定下,李博闻阐述了一种新颖的联合深度神经网络 (FedDNN) 所有权考证规划,该规划允许嵌入和考证所有权签字,以声明 FedDNN 模型的合法知识产权 (IPR),以防模型被非法复制、重新分发或滥用 . 嵌入式所有权签字的有效性在理论上是通过证实的条件来证实的,在这种条件下,签字可以被多个客户端嵌入和检测,而无需公开私人签字。
最后,来自芬兰 Aalto 大学的 Buse Atli 带来了题为《Model Stealing and Ownership Verification of Deep Neural Networks》的综合性分享。最近的一些事情表明,从技巧的层面,人们暂时无法完全阻止深度进修模型夺取攻打,不同的模型夺取检测预防机制要么无法对抗强大的敌手,要么对模型性能和良性用户的效用产生负面影响。因此,模型所有者可以通过证实被盗模型的所有权来减少此类攻打的动机,而不是防止模型被夺取本身。已经提出的各种模型水印规划被广泛用于可靠的所有权考证,水印深度神经网络(DNN)引起了学术界相当大的研讨兴趣(尤其是在图象分类方面),因为深度进修模型水印易于部署并且对模型性能的影响可以忽略不计。并且,学术界针对 DNN 水印技巧提出了许多不同的攻打法子,从而对其鲁棒性提出了质疑。
在本次演讲中,Buse 介绍了针对不同模型夺取攻打、动态对抗性水印 (DAWN) 作为对模型夺取的威慑以及联邦进修中模型水印技巧 (WAFFLE) 的相关事情,以根据不同的安全和隐私要求对这些法子进行分析。
聚集顶尖学者,关注深度进修模型知识产权爱护规模,DeepIPR-IJCAI’21已成为全球模型爱护规模最前沿的学术动态窗口。以科技手段解决时代难题,多位行业领军者的干货分享,一定能够成为当下时代模型知识产权爱护规模最有力的助推器。
讲座视频回顾及更多信息可查看研讨会官网或者B站
官网:http://federated-learning.org/DeepIPR-IJCAI-2021/
B站:https://www.bilibili.com/video/BV1PP4y1W7nS