如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型平安与隐衷白皮书》

研究者们也开始意识到 ChatGPT 等生成式大模型面临着数据和模型方面的平安隐患。

今年 5 月初，美国白宫与谷歌、微软、OpenAI、Anthropic 等 AI 公司的 CEO 们召开集体会议，针对 AI 生成手艺的爆发，讨论手艺背后隐藏的风险、如何负责任地开发人工智能系统，以及制定有效的监管措施。国内的生成式大模型手艺也正在发展之中，但是同时也需要先对平安成绩举行相应的分析以便双管齐下，避免生成式大模型这把双刃剑带来的隐藏危害。

为此，之江实验室基础理论研究院人工智能与平安团队首次全面总结了 ChatGPT 为代表的生成式大模型的平安与隐衷成绩白皮书，希望能够为从事平安成绩研究的手艺人员指明方向，同时也为 AI 相关政策的制定者提供依据。

白皮书链接： https://github.com/xiaogang00/white-paper-for-large-model-security-and-privacy

生成式大模型的发展与重要应用

这份白皮书首先总结了 ChatGPT 与 GPT4 等生成式大模型的发展历程，以及其带来的各种令人惊叹的本领和社会变革、社会应用等。作者列举了 ChatGPT 和 GPT4 出现之前的 GPT-1、GPT-2、GPT-3、Google Bert 等模型的特点以及缺点，这些缺点与 ChatGPT 和 GPT4 的强盛本领形成了对比；并且，ChatGPT 和 GPT4 之后又涌现了一大批的模型，包括 LLaMa、Alpaca、文心一言、通义千问等，它们的出现使得在人机交互、资源管理、科学研究、内容创作等应用领域出现了新的、强有力的工具。但同时也出现了包括数据平安，应用规范、可信伦理、知识产权以及模型平安方面的成绩。

数据平安成绩

白皮书提出，数据的平安和隐衷是 ChatGPT 及 GPT4 等生成式大模型应用和研发过程中一个极为重要的成绩，并从「显式」和「隐式」两个方面对其举行了分析。

在显式的信息泄漏中，首先，ChatGPT 等生成式大模型的训练数据在不经意间被转换成了生成内容，其中就包括了敏感和隐衷的个人信息如银行卡账号、病例信息等。此外，ChatGPT 的数据平安和隐衷隐患还体现在它对于对话框内容的存储，当用户在和 ChatGPT 互动时，他们的信息会以某些形式被记录和存储下来。

白皮书还提出了之前被大家忽略的隐式信息泄漏成绩。首先，ChatGPT 体现出的数据平安和隐衷的隐患是它大概通过对对话框数据的收集举行广告推荐，以及收集对话框数据举行推荐或者其他的下游机器学习任务，且 ChatGPT 有时候大概也会生成虚假的信息，以此来诱导用户泄漏一系列的数据。

应用规范成绩

在白皮书中，作者提到 ChatGPT 和 GPT4 等生成式大模型强盛的理解和生成本领虽然为我们的生活和生产带来了很多的便利，但是同时也生存更多的机会被恶意应用。在没有规范约束的情况下，恶意应用将带来很多的社会性成绩。

其一，ChatGPT 和 GPT-4 等模型的强盛本领使得某些别有用心的人想要将其作为违法活动的工具。例如用户可以利用 ChatGPT 来编写诈骗短信和钓鱼邮件，甚至开发代码，按需生成恶意软件和勒索软件等，而无需任何编码知识和犯罪经验。

其二，ChatGPT 和 GPT4 等生成式大模型没有把不同地区的法律规范考虑在内，在应用和输入的过程中大概会违反当地法律法规，因此需要一个强而有力的当地监管系统来检测其应用是否与当地法律法规相冲突。

其三，对于一些游离于平安和危险之间的灰色地带，ChatGPT 等生成式大模型的平安本领还没有得到增强。例如 ChatGPT 大概会输入一些诱导性的语句，包括跟抑郁症患者沟通时候大概会输入某些语句导致其产生轻生的心态。

可信伦理成绩

ChatGPT 等生成式大模型以问答形态生存于社会层面，但其回复往往生存不可信，或者无法判断其正确的成绩，会有似是而非的失误答案，甚至对现有社会伦理产生冲击。

白皮书指出，首先 ChatGPT 等生成式大模型的回复大概是在一本正经地胡说八道，语句通畅貌似合理，但其实完全大相径庭，目前模型还不能提供合理的证据举行可信性的验证。例如，ChatGPT 大概会对一些历史、科学、文化等方面的成绩回答失误或者与事实相悖，甚至大概会造成误导或者误解，需要用户有自己的鉴别本领。

ChatGPT 等生成式大模型的伦理成绩也在白皮书中被详细讨论。即使 OpenAI 等研发机构已经应用 ChatGPT 本身生成了他们的道德准则，但其中的道德准则是否符合我国国情的基本价值观原则，尚未有定论。作者提出其中生存传播有害意识形态、传播偏见和仇恨、影响政治正确、破坏教育公平、影响国际社会公平、加剧机器取代人类的进程、形成信息茧房阻碍正确价值观形成等成绩。

知识产权成绩

ChatGPT 等生成式大模型凭借强盛的语言处理本领和低廉应用成本给社会方方面面带来便利的同时，也生存侵权的成绩，对现存版权法体系带来冲击。例如 ChatGPT 生成的作品大概生存著作权争议：ChatGPT 虽然有着出色的语言处理本领，但是即使生成的作品符合知识产权的全部形式要求，ChatGPT 也无法成为著作权的主体，这是因为著作权主体享有权利的同时也要承担对应的社会责任，而 ChatGPT 只能作为用户强盛的辅助生产力工具，它无法自主创作，更不要谈享有权利、履行义务的主体要求。

而且 ChatGPT 等生成式大模型仍无法独立创作，更没有自主思维和独立思考的本领，因而，ChatGPT 根据用户的输入生成的内容不符合作品「独创性」的要求。ChatGPT 用于模型训练的数据来自于互联网，不论多么高级的模型训练算法必然涉及到对现有智力成果的引用、分析、处理等，必然生存对他人合法知识产权的侵犯成绩。

模型平安成绩

从攻防手艺角度来看，ChatGPT 等生成式大模型也生存着模型平安的成绩。ChatGPT 本质上是基于深度学习的一个大型生成模型，也面临着人工智能平安方面的诸多威胁，包括模型盗取以及各种进犯引起输入的失误（例如包括对抗进犯、后门进犯、prompt 进犯、数据投毒等）。

例如，模型盗取指的是进犯者依靠有限次数的模型询问，从而得到一个和目标模型的功能和效果一致的本地模型。而 ChatGPT 已经开放了 API 的应用，这更为模型盗取提供了询问入口。又比如，ChatGPT 和 GPT4 作为一个分布式计算的系统，需要处理来自各方的输入数据，并且经过权威机构验证，这些数据将会被持续用于训练。那么 ChatGPT 和 GPT4 也面临着更大的数据投毒风险。进犯者可以在与 ChatGPT 和 GPT4 交互的时候，强行给 ChatGPT 和 GPT4 灌输失误的数据，或者是通过用户反馈的形式去给 ChatGPT 和 GPT4 举行失误的反馈，从而降低 ChatGPT 和 GPT4 的本领，或者给其加入特殊的后门进犯。

平安与隐衷建议

最后，白皮书中对于平安和隐衷等成绩都举行了相应的建议，可作为之后手艺研究者们的方向和政策制定者们的参考依据。

在庇护隐衷建议方面，白皮书提出要在增强原始数据中高敏感隐衷信息的辨别和传播限制；在数据收集过程中利用差分隐衷等手艺举行隐衷庇护；对于训练数据的存储举行数据加密形式的平安庇护；在模型训练过程中应用平安多方计算，同态加密以及联邦学习等手艺举行数据隐衷和平安庇护；建立数据隐衷评估和模型庇护与平安认证体系，并且庇护下游应用的隐衷。

在模型平安成绩的建议上，白皮书提出对平安与隐衷信息的检测模型的训练；让不同的模型适用于不同国家的法律条款；以及针对各种对抗进犯举行防御性训练。

在模型合规成绩上，白皮书提出举行可信输入的度量，信任值评价，增加模型输入的版权信息的查询功能。

总结来说，AI 生成式大模型的发展离不开平安，因此其平安成绩将作为下一个手艺点，值得众多研究者去攻克。而平安也是社会稳定的保障，有关部门需要尽快举行政策的制定。

{{userData.name}}已认证

如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型平安与隐衷白皮书》

华文大说话模型赶考：商汤与上海AI Lab等新发布「墨客·浦语」

只需一行代码，即可轻松驱散基因组分析中DNN产生的数字乐音

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）