ECCV 2024 | 机器遗忘之后，扩散模型真正安全了吗？

2024-08-26 08:51

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文第一作者为密歇根州立大学计算机系博士生张益萌，贾景晗，两人均为OPTML实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文第一作者为密歇根州立大学计算机系博士生张益萌，贾景晗，两人均为OPTML实验室成员，指导教师为刘思佳助理教授。OPtimization and Trustworthy Machine Learning (OPTML) 实验室的研究兴趣涵盖机器学习/深度学习、优化、计算机视觉、安全、信号处理和数据科学领域，重点是开发学习算法和理论，以及鲁棒且可解释的人工智能。

在人工智能领域，图像生成技术一直是一个备受关注的话题。近年来，扩散模型（Diffusion Model）在生成逼真且复杂的图像方面取得了令人瞩目的进展。然而，技术的发展也引发了潜在的安全隐患，比如生成有害内容和侵犯数据版权。这不仅可能对用户造成困扰，还可能涉及法律和伦理问题。

尽管目前已有不少机器遗忘（Machine Unlearning, MU）方法 [1-3]，希望让扩散模型在使用不适当的文本提示时避免生成不合时宜的图片，但其有效性存疑。

只是我们好奇，经过机器遗忘的扩散模型，真的就一定安全了吗？

为了应对这一挑战，密歇根州立大学 (Michigan State University) 和英特尔（Intel）的研究者们提出了一种高效且无需辅助模型的对抗性文本提示生成方法 UnlearnDiffAtk [4]，并用优化后得到的对抗性文本提示作为检验遗忘后扩散模型安全可靠性的工具，论文目前已被 ECCV 2024 接收。本文第一作者为密歇根州立大学计算机系博士生张益萌、贾景晗，两人均为 OPTML 实验室成员，指导教师为刘思佳助理教授。

论文题目：To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy to Generate Unsafe Images ... For Now

论文地址：https://arxiv.org/abs/2310.11868

代码地址：https://github.com/OPTML-Group/Diffusion-MU-Attack

Unlearned Diffusion Model Benchmark: https://huggingface.co/spaces/Intel/UnlearnDiffAtk-Benchmark

Unlearned DM 可以从两个角度评估模型：

安全可靠性：通过对抗性文本提示攻击 (UnlearnDiffAtk) 来进行评估；

图片生成能力：通过一万张生成图片平均 FID（Fréchet inception distance）和 CLIP score 进行评估。

文章与代码均已开源，研究团队还在积极收纳更多的方法到 Unlearned DM Benchmark。如有意向，欢迎邮件联系作者（[email protected]）沟通模型测评相关事宜。

UnlearnDiffAtk 方法有什么独特之处？

UnlearnDiffAtk 的目标是通过寻找离散的对抗性文本来进行攻击，而与之不同的是，CCE [5] 侧重于寻找连续的文本嵌入进行攻击。

然而，CCE 并不是一个理想的评估方式，因为文本反转 [6] 的初衷是通过优化生成 “新” 的词元（token），从而使扩散模型能够生成未见过的事物或风格。

因此，即使扩散模型已经遗忘了某些特定内容，仍然可以通过优化生成新的词元来使模型生成相应的事物。而 UnlearnDiffAtk 与其他对抗式文本生成方法不同，UnlearnDiffAtk 无需依靠辅助模型或未经机器遗忘的原模型提供优化指导。它利用扩散模型内在的分类器辨别能力 [7]，来指导对抗性文本的生成，使得攻击更具可操作性。

优化过程中仅需一张目标图片（Target Image,）提供指导，大大降低了对硬件的要求并提高了攻击效率。需要注意的是，目标图片不必与原有的不适当文本提示描述完全吻合，仅需包含攻击后期望得到的有害内容即可。例如，若 UnlearnDiffAtk 希望强迫遗忘后的模型生成包含裸体的图片，那么目标图片只需是网络上的任何一张裸体照片即可。

具体来说，根据 Diffusion Classifier [7] 的概念，预测输入图片 x 为标签 c 的概率变为如下：

而在扩散模型中，的对数似然去噪误差相关，则可以得到：

通过扩散分类器 (3) 的视角，创建对抗性提示词 c’ 以规避目标遗忘后扩散模型的任务可以表述为：

然而分类只需要噪声误差之间的相对差异，不需要它们的绝对大小，所以公式（3）可以变形为

然后我们可以将攻击生成问题 (4) 变为

为了便于优化，我们通过利用 exp (⋅) 的凸性来简化公式 (6)。使用 Jensen 不等式，对于凸函数，公式 (6) 中的单个目标函数（针对特定的 j）的上界为：

由于第二项与优化变量 c’无关，通过将公式 (7) 纳入公式 (6) 并排除与 c’无关的项，我们得到以下简化的攻击生成优化问题：

任务类型

扩散模型的机器遗忘任务可分为三大类，而 UnlearnDiffAtk 在这三类任务中均展现了较强的攻击成功率：

有害内容（如：裸体，暴力，违法行为）

艺术风格

物体

本文不仅深入了解了扩散模型在生成安全性方面的挑战，还提出了有效的解决方案。希望这项研究能引起更多对图像生成技术安全性的关注，并推动相关技术的进一步发展。

实验结果与可视化

下述表格和可视化结果分别展示了在遗忘有害内容、遗忘艺术风格以及遗忘物体这三类任务中的表现。通过这些结果可以看出，即使在没有额外辅助模型提供优化指导的情况下，仅仅依靠扩散模型自身携带的分类器特性，UnlearnDiffAtk 依然表现出与同期工作 P4D 相当甚至更高的攻击成功率。此外，由于无需依赖额外的模型辅助，UnlearnDiffAtk 能够显著提高攻击速度，平均节省约 30% 的攻击时间。

参考文献

[1] Zhang Y, Chen X, Jia J, et al. Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models, Arxiv 2024.

[2] Zhang Y, Zhang Y, Yao Y, et al. Unlearncanvas: A stylized image dataset to benchmark machine unlearning for diffusion models, Arxiv 2024.

[3] Fan C, Liu J, Zhang Y, et al. Salun: Empowering machine unlearning via gradient-based weight saliency in both image classification and generation, ICLR 2024.

[4] Zhang Y, Jia J, Chen X, et al. To generate or not? safety-driven unlearned diffusion models are still easy to generate unsafe images... for now, ECCV 2024.

[5] Pham M, Marshall K O, Cohen N, et al. Circumventing concept erasure methods for text-to-image generative models, ICLR 2023.

[6] Gal R, Alaluf Y, Atzmon Y, et al. An image is worth one word: Personalizing text-to-image generation using textual inversion, ICLR 2023.

[7] Li AC, Prabhudesai M, Duggal S, et al. Your diffusion model is secretly a zero-shot classifier, ICCV 2023.

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能，你需要这种提示范式

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文作者来自浙江大学、上海人工智能实验室、香港中文大学、悉尼大学和牛津大学。作者列表：吴逸璇，王逸舟，唐诗翔，吴文灏，贺通，Wanli Ouyang，Philip Torr，Jian Wu

7/22/2024 2:26:00 PM

机器之心

ECCV 2024｜盲视频去闪烁通用方法BlazeBVD来了，美图&国科大联合提出

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]近年，短视频生态的赛道迅猛崛起，围绕短视频而生的创作编辑工具在不断涌现，美图公司旗下专业手机视频编辑工具 ——Wink，凭借独创的视频画质修复能力独占鳌头，海内外用户量持续攀升。Wink

7/23/2024 10:56:00 AM

机器之心

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]该论文作者均来自于新加坡南洋理工大学 S-Lab 团队，包括博士后胡涛，博士生洪方舟，以及计算与数据学院刘子纬教授（《麻省理工科技评论》亚太地区 35 岁以下创新者）。S-Lab 近年来在

8/12/2024 2:33:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

ECCV 2024 | 机器遗忘之后，扩散模型真正安全了吗？

相关资讯

ECCV 2024 | 提升GPT-4V、Gemini检测任务性能，你需要这种提示范式

ECCV 2024｜盲视频去闪烁通用方法BlazeBVD来了，美图&国科大联合提出

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型