AI在线 AI在线

攻击成功率从 3% 到接近 100%,利用空格键可绕过 Meta AI 模型安全系统

作者:故渊
2024-07-31 10:28
Meta 公司上周在发布 Llama 3.1 AI 模型的同时,还发布了 Prompt-Guard-86M 模型,主要帮助开发人员检测并响应提示词注入和越狱输入。AI在线在这里简要补充下背景知识:提示词注入(prompt injection):将恶意或非预期内容添加到提示中,以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集;提示词越狱(prompt jailbreaks):绕过安全和审查功能。不过根据科技媒体 theregister 报道,这个防止 AI 提示词注入和越狱的模型,本身也存在漏洞,用户只需要

Meta 公司上周在发布 Llama 3.1 AI 模型的同时,还发布了 Prompt-Guard-86M 模型,主要帮助开发人员检测并响应提示词注入和越狱输入。

AI在线在这里简要补充下背景知识:

提示词注入(prompt injection):将恶意或非预期内容添加到提示中,以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集;

提示词越狱(prompt jailbreaks):绕过安全和审查功能。

不过根据科技媒体 theregister 报道,这个防止 AI 提示词注入和越狱的模型,本身也存在漏洞,用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。

企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒(Aman Priyanshu)分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异时,发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号,就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说:

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

攻击成功率从 3% 到接近 100%,利用空格键可绕过 Meta AI 模型安全系统

Robust Intelligence 首席技术官海勒姆・安德森(Hyrum Anderson)表示

无论你想问什么令人讨厌的问题,你所要做的就是去掉标点符号,在每个字母之间加上空格。

它的攻击成功率从不到 3% 到接近 100%。

相关标签:

相关资讯

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器由文本编码器和扩散模型组成。 如果在没有适当安全措施的情况下部署,它们会产生滥用风险(左图)。 我们提出了潜在保护方法(右图),这是一种旨在阻止恶意输入提示的安全方法。
11/5/2024 10:48:00 AM
新闻助手

Meta AI 全球市场扩张,并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI,在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型,速度更快、智能性更高、功能更强,是执行各种任务的理想选择
4/19/2024 9:15:51 AM
故渊

将26个token压缩成1个,新方法极致节省ChatGPT输入框空间

进入正文之前,先考虑一下像 ChatGPT 这样的 Transformer 语言模型(LM)的 prompt:
5/7/2023 12:59:00 PM
机器之心