攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

Meta 公司上周在发布 Llama 3.1 AI 模型的同时，还发布了 Prompt-Guard-86M 模型，主要帮助开发人员检测并响应提示词注入和越狱输入。AI在线在这里简要补充下背景知识：提示词注入（prompt injection）：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；提示词越狱（prompt jailbreaks）：绕过安全和审查功能。不过根据科技媒体 theregister 报道，这个防止 AI 提示词注入和越狱的模型，本身也存在漏洞，用户只需要

Meta 公司上周在发布 Llama 3.1 AI 模型的同时，还发布了 Prompt-Guard-86M 模型，主要帮助开发人员检测并响应提示词注入和越狱输入。

AI在线在这里简要补充下背景知识：

提示词注入（prompt injection）：将恶意或非预期内容添加到提示中，以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集；

提示词越狱（prompt jailbreaks）：绕过安全和审查功能。

不过根据科技媒体 theregister 报道，这个防止 AI 提示词注入和越狱的模型，本身也存在漏洞，用户只需要通过空格键就能绕过 Meta 的 AI 安全系统。

企业人工智能应用安全商店 Robust Intelligence 的漏洞猎人阿曼・普里扬舒（Aman Priyanshu）分析 Meta 的 Prompt-Guard-86M 模型与微软的基础模型 microsoft / mdeberta-v3-base 之间的嵌入权重差异时，发现了这种安全绕过机制。

用户只需要在字母之间添加空格并省略标点符号，就可以要求 Meta 的 Prompt-Guard-86M 分类器模型“忽略之前的指令”。

Priyanshu 在周四提交给 Prompt-Guard repo 的 GitHub Issues 帖子中解释说：

绕过方法是在给定提示符中的所有英文字母字符之间插入按字符顺序排列的空格。这种简单的转换有效地使分类器无法检测到潜在的有害内容。

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

Robust Intelligence 首席技术官海勒姆・安德森（Hyrum Anderson）表示

无论你想问什么令人讨厌的问题，你所要做的就是去掉标点符号，在每个字母之间加上空格。

它的攻击成功率从不到 3% 到接近 100%。

{{userData.name}}已认证

攻击成功率从 3% 到接近 100%，利用空格键可绕过 Meta AI 模型安全系统

巴西政府豪掷近 41 亿美元投资人工智能，以实现技术自主及高竞争力

帮忙推车、陪你购物，波士顿动力的劲敌又整新活儿了

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩