AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

一只橘猫，减去「猫」，它会变成什么？第一步在常见 AI 作图模型输入「一只胖胖的像面包的橘猫」，画出一只长得很像面包的猫猫，然后用观点半透膜 SPM 技术，将猫猫这个观点擦掉，结果它就失去梦想变成了一只面包。上图 1 是更多的猫猫图失去猫这个观点后的结果。图 1 观点半透膜 SPM 针对不同的「猫」图擦除猫观点后的成果下图 2 到图 6 展示了更多的示例。图 2 失去梦想变成一只面包表情包

一只橘猫，减去「猫」，它会变成什么？

第一步在常见 AI 作图模型输入「一只胖胖的像面包的橘猫」，画出一只长得很像面包的猫猫，然后用观点半透膜 SPM 技术，将猫猫这个观点擦掉，结果它就失去梦想变成了一只面包。上图 1 是更多的猫猫图失去猫这个观点后的结果。

图 1 观点半透膜 SPM 针对不同的「猫」图擦除猫观点后的成果

下图 2 到图 6 展示了更多的示例。

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面图 2 失去梦想变成一只面包表情包图 3 西装光剑米老鼠图擦除米老鼠观点

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面图 4 稻田里的史努比图擦除史努比观点

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面图 5 梵高的向日葵图擦除梵高观点

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面图 6 毕加索的抽象画擦除毕加索观点

这便是清华大学丁贵广教授团队和阿里安全联合发布的观点半透膜模型（concept Semi-Permeable Membrane，SPM 模型），该模型能够在 Diffusion 架构的 AI 作图模型中，精确、可控地擦除各类具象或抽象观点，并对有关观点做到几乎完全保留。

相关论文《One-dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications》已经被计算机视觉国际顶级会议 CVPR 2024 高分录用。

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

项目主页：https://lyumengyao.github.io/projects/spm

Github 地址：https://github.com/Con6924/SPM

论文地址：https://arxiv.org/abs/2312.16145

阿里集团资深总监、人工智能治理与可持续发展研究中心主任、集团科技伦理治理委员会执行主席薛晖表示：该项成果在通义大模型系列的 AIGC 内生安全领域、可控生成等方面都具备落地潜力，能够有效避免有害观点的侵害，促进通义等 AI 技术产品可用、可靠、可信、可控地向善发展。

1、动机和研究背景

前不久，OpenAI 的文生视频模型 Sora 带来了 AIGC 新时代，主流的视觉 AIGC 基于扩散模型（Diffusion Model，DM），但依然存在各类问题，比如可以被诱导生成涉黄、侵权等危险观点、无法精确地对某些观点进行作画和控制等。这里的「观点」可以是具象的「苹果」，也可以是抽象的「梵高风」、「色情」、「暴力」。

外置安全系统拦截风险会造成较差的用户体验（一些无恶意的用户可能在创作时，因为模型偶然生成一些违规内容而被拦截），因此需要一种基于模型内生安全的观点擦除方法，保留用户意图，同时对模型违规元素进行柔性地精确擦除。

针对此，本文提出了观点半透膜模型（concept Semi-Permeable Membrane，SPM 模型）。

2、技术框架

如下图 7 所示，给定一个方针观点，本文的主要方针是从预训练的 DM 中精确地擦除该观点，同时保留其他生成内容。

为了避免对特定 DM 参数的依赖和训练过程中出现的参数漂移，本文首先设计了一种轻量化的一维 Adapter，称为观点半透膜（concept Semi-Permeable Membrane，SPM）。这种极轻量的非侵入性结构可以插入任何预训练的 DM（如 SD v1.x）中，以学习特定观点的可迁徙识别及其相应的擦除，同时保持原始模型的完整性。

然后，本文提出了一种新颖的 SPM 微调策略 ——Latent Anchoring（LA），以有效地在潜空间中利用连续的观点进行精确的擦除和有效的观点保留。一旦 SPM 独立学习到擦除不同的潜在风险的能力，这些 SPMs 就构成了一个观点擦除库，其中任何观点的组合（例如 Van Gogh + nudity）都可以根据需求场景定制，并直接免训练地迁徙到其他 SPM 兼容的模型中（例如社区中的 RealisticVision 模型）。

在适配 SPM 后的推理过程中，本文的 Facilitated Transport 机制在接受输入 prompt 时会动态地控制 SPM 的激活和渗透性。例如，包含不雅内容的 prompt 将由 nudity SPM 擦除，但不会触发 Van Gogh SPM。同时，没有在 DM 中安装相应 SPM 的 Picasso 风格的生成几乎不会受到影响。

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面图 7 SPM 技术框架

2.1 轻量化的一维 Adapter：SPM

为了摆脱预训练模型的参数依赖，本文设计了一种轻量高效的 Adapter，SPM。它仅有一个内在维度，作为一种「半透薄膜」被插入到 DM 中来实现精确擦除。

SPM 的单元结构由两个可学习的向量组成。擦除信号 AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面用于抑制特定观点的生成，而它的振幅由对应的调节器控制，以确定擦除的强度。

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

SPM 的结构设计使得多个 SPM 可以叠加地插入到同一个 DM 中，基于信号加法的擦除使得多个危险观点可以灵活定制，以满足错综复杂且不断变化的擦除需求。此外，它可以在大多数的 DM 上轻松迁徙，相比现有方法，显著提高推理、部署和存储效率。

2.2 微调阶段的观点半透性精确习得：Latent Anchoring

本文通过模型参数微调使 SPM 获得对特定观点的擦除半渗透性。基于 LDM 中观点的叠加与消去对应于对数概率算数运算的理论，本文对 SPM 进行参数化，以在 DM 的噪声预测过程中执行观点的擦除。

具体而言，给定方针观点 AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面，本文预定义一个代理观点（或一般地，空字符串），用来指定方针观点擦出后模型预期的行为，擦除损失如下：

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

然而，仅用上述学习方针会引发 DM 中其他观点的灾难性遗忘，导致生成中观点的侵蚀现象。对此，本文提出 Latent Anchoring 策略，在上式基础上，对于其他的尤其是距离方针观点更远的观点，本文期望模型尽可能地与原生成保持一致

其中有：

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面是影响方针观点近义词行为的超参数。

方针观点的精确擦除和安全观点的广泛保留由 AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面平衡，SPM 的微调总损失如下：

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

2.3 生成阶段的观点半透性动态适配：Facilitated Transport

当前文得到一系列擦除不同方针的独立 SPM 后，可以将它们不冲突地组合并覆盖在其他 DM（如 AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面）上：

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

尽管 Latent Anchoring 旨在在微调过程中保护非方针观点，但在安装了多个 SPM 的挑战性场景中，已有方法的结果表明整体生成成果不可避免地退化。为了进一步最小化对有关观点的影响，本文在推理阶段引入 Facilitated Transport 机制，动态地传输方针观点的擦除信号，同时拒绝 SPM 对非方针观点的响应。

具体地，对于给定的 prompt p，每个 SPM 的信息渗透性和传输速率，表示为 AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面，取决于 p 中包含的方针观点 c 的概率。为了估计这个概率，本方法首先在 CLIP 文本编码空间中计算 p 和 c 的语义距离，表示为。然而，潜空间上的距离作为一种全局视角可能无法完全捕捉到简单的观点名称和复杂的 prompt 局部描述之间的相关性。为此，本文又引入了局部的度量标准，以在 token 级别上识别相关性：

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

其中 T 表示 DM 的 Tokenizer。

最终将 AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面计算为：

AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面

以在全局和局部两个视角下捕捉到 prompt 和方针观点的相关性。当输入的 prompt 中蕴涵了观点 c 的相关信息，一个较大的 AI图片橡皮擦来了，清华&阿里合作推出「观点半透膜」模型，还能改头换面将会在在上文公式中激活对应的 SPM，使得相应的生成被抑制；反之，将接近于零，保持生成与原有模型一致。