ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

最近的文本到图像生成器由文本编码器和扩散模型组成。如果在没有适当安全措施的情况下部署，它们会产生滥用风险（左图）。我们提出了潜在保护方法（右图），这是一种旨在阻止恶意输入提示的安全方法。

最近的文本到图像生成器由文本编码器和扩散模型组成。如果在没有适当安全措施的情况下部署，它们会产生滥用风险（左图）。我们提出了潜在保护方法（右图），这是一种旨在阻止恶意输入提示的安全方法。我们的想法是在文本编码器的基础上，检测学习的潜在空间中黑名单概念的存在。这使我们能够检测到超出其确切措辞的黑名单概念，并且还扩展到一些对抗性攻击（“<ADV>”）。黑名单在测试时是可调的，可以添加或删除概念而无需重新训练。被阻止的提示不会被扩散模型处理，从而节省计算成本。

随着生成高质量图像的能力，文本到图像（T2I）模型可能被滥用于创建不当内容。为了防止滥用，现有的安全措施要么基于文本黑名单，这很容易被规避，要么基于有害内容分类，这需要大量数据集进行训练且灵活性较低。因此，我们提出了潜在保护（Latent Guard），这是一个旨在改善文本到图像生成安全措施的框架。受到基于黑名单方法的启发，潜在保护在T2I模型的文本编码器上学习了一个潜在空间，在该空间中可以检查输入文本嵌入中有害概念的存在。我们提出的框架由一个特定于该任务的数据生成管道、专门的架构组件和一种对比学习策略组成，以从生成的数据中受益。我们的方法在三个数据集上进行了验证，并与四个基准进行了对比。

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

论文标题：Latent Guard: a Safety Framework for Text-to-image Generation

论文链接：https://arxiv.org/abs/2404.08031

代码&数据集链接：https://github.com/rt219/LatentGuard

方法与数据集构建

我们首先生成围绕黑名单概念的安全和不安全提示的数据集（左侧）。然后，我们利用预训练的文本编码器提取特征，并通过我们的嵌入映射层将其映射到一个学习的潜在空间（中间）。在训练过程中，只有嵌入映射层会更新，所有其他参数保持冻结状态。我们通过在提取的嵌入上施加对比损失进行训练，拉近不安全提示和概念的嵌入，同时将它们与安全提示的嵌入区分开来（右侧）。

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard

对于 C 个概念，我们根据第 3.1 节中的描述，使用大型语言模型 (LLM) 对不安全的 U 提示进行采样。然后，我们通过用同义词替换 c（同样使用 LLM）来创建同义词提示，并得到 U^syn。此外，我们使用对抗攻击方法将 c 替换为 "<ADV>" 对抗文本 (U^adv)。安全提示 S 从 U 中获得。这对于每个 ID 和 OOD 数据都执行。

实验结果

我们提供了 Latent Guard 和基准模型在 CoPro 上的准确率 (a) 和 AUC (b)。在所有设置中，我们的排名均为第一或第二，仅在显式 ID 训练数据上进行训练。图 (c) 显示了 CoPro 提示和生成图像的示例。不安全的生成图像证明了我们数据集的质量。Latent Guard 是唯一能够阻止所有测试提示的方法。

ECCV 2024｜牛津大学&港科提出毫秒级文生图安全检测框架Latent Guard