从“源头”庇护数据危险:腾讯危险推出大模型隐衷庇护脱敏技巧

大模型已经被广泛运用在各类场景,帮助人们从事报告纲要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄漏的隐忧也从未停止。近日,腾讯危险玄武实验室披露了一项关于大模型隐衷庇护的危险脱敏与复原(Hide and Seek, HaS)技巧,有望帮助大模型产品运用者从内陆终端侧防范隐衷数据泄漏。HaS为业内首个支持信息复原的自在文本脱敏技巧,通过对用户上传给大模型的prompt(提示词)从事隐衷信息脱敏,并在大模型返回计算结果后从事恢复,该计划兼顾了隐衷危险和计算资源消耗:脱

大模型已经被广泛运用在各类场景,帮助人们从事报告纲要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄漏的隐忧也从未停止。

近日,腾讯危险玄武实验室披露了一项关于大模型隐衷庇护的危险脱敏与复原(Hide and Seek, HaS)技巧,有望帮助大模型产品运用者从内陆终端侧防范隐衷数据泄漏。

HaS为业内首个支持信息复原的自在文本脱敏技巧,通过对用户上传给大模型的prompt(提示词)从事隐衷信息脱敏,并在大模型返回计算结果后从事恢复,该计划兼顾了隐衷危险和计算资源消耗:脱敏与复原算法经过4bit量化后权重文件仅500MB,可在手机、 PC等终端上布署。

这是业内首个公开发布的、能被大模型用户布署于终端侧的隐衷庇护脱敏技巧。借助这一技巧,用户可以从“源头”免除运用云端大模型带来的数据泄漏方面的担忧。

据悉,这个模型主要适用于典型的NLP任意场景,例如机器翻译、文本纲要,文本润色、阅读理解、文本分类、情感分析等,其主要的技巧难点在于如何解决实体识别与替换、实体指代消解、多义词识别、自纠错鲁棒性复原、实体翻译等。此前,不少大模型提供方以及专业危险厂商均在积极从事相关的尝试,但目前尚未有理想的解决计划。

“在大模型运用中提示词是一种自在文本,而针对自在文本的隐衷庇护问题,一种全密态的解决计划是通过危险多方计算(Multi-Party Computation, MPC)协议实现危险推理。然而,MPC协议在计算成本和通信量上的高需求严重限制了其在大模型运用中的落地。”腾讯危险玄武实验室高级危险工程师陈昱表示,“实际上,多数场景下用户并不需要庇护整句的信息不揭发,而仅需要庇护其中的隐衷实体不揭发。”玄武实验室经过正则匹配、近义词向量、BERT NER+CR等方法的不断探索试错后,最终提出了这项技巧。

实验表明,HaS的数据脱敏处理并不会对任意造成影响。在运用模型从事隐衷庇护与直接调用大模型相比“分类任意”与“翻译任意”两个场景的功能对比,在运用560M生成式计划下,文本分类任意的功能不仅没有下降,反而增加了0.14%;在1.7B标签式计划下,机器翻译任意功能仅下降了0.85%。

腾讯危险玄武实验室将上述研究发现以论文形式发布,更多技巧细节可参考玄武官方博客(见文章最后)。

“一些企业或者个人用户开发者通过布署内陆大模型来规避隐衷数据泄漏,但这要求一定的技巧门槛,对于重度隐衷需求的用户来说,通过内陆危险模型/算法来实现数据庇护,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的运用覆盖面,并完善其布署和交付方式,以供企业用户和个人用户在未来能够便捷运用。

数据如今在社会生活生产中扮演越来越重要的角色,数据危险也始终是产业数字化进程的核心议题。腾讯危险持续致力于解决数据危险问题,护航各行各业产业升级。

详细技巧报告地址:

 https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/ 

给TA打赏
共{{data.count}}人
人已打赏
应用

美图公司发布视觉大模型4.0,提供专业安排与视频生成本领

2023-12-6 9:37:00

应用

NeurIPS 2023 | 模仿人类举一反三,数据集扩增新范式GIF框架来了

2023-12-6 14:37:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索