Guard

ECCV 2024|牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器由文本编码器和扩散模型组成。 如果在没有适当安全措施的情况下部署,它们会产生滥用风险(左图)。 我们提出了潜在保护方法(右图),这是一种旨在阻止恶意输入提示的安全方法。

攻击成功率从 3% 到接近 100%,利用空格键可绕过 Meta AI 模型安全系统

Meta 公司上周在发布 Llama 3.1 AI 模型的同时,还发布了 Prompt-Guard-86M 模型,主要帮助开发人员检测并响应提示词注入和越狱输入。AI在线在这里简要补充下背景知识:提示词注入(prompt injection):将恶意或非预期内容添加到提示中,以劫持语言模型的输出。提示泄露和越狱实际上是这种攻击的子集;提示词越狱(prompt jailbreaks):绕过安全和审查功能。不过根据科技媒体 theregister 报道,这个防止 AI 提示词注入和越狱的模型,本身也存在漏洞,用户只需要
  • 1