任何一个创作过程,都是始于「仿照」、终于「创造」。对于 AI 来说,这一学习过程也是相同的。
近期,开源版本的 Stable Diffusion 文本到图象的聚集模型,使图象生成技术得到极为广泛的应用,但是如何规避色情或风格侵权是需要解决的问题,作家提出 Erased Stable Diffusion(ESD)办法,有效的解决了前面的问题。
文本到图象生成模型备受关注,其具备优秀的图象生成质量和看似无限的生成潜力。诸如此类的生成模型都是基于大规模的互联网数据集进行训练的,这使它们能够学习很广泛的观念。然而,模型生成的一些观念是不受欢迎的,比如受版权保护的实质和色情实质。
如何尽量避免模型输入这些实质呢?在最近的一篇论文中,来自美国东北大学、麻省理工学院的作家提出了一种在预训练之后有选择地从文本前提模型的权重中简略单个观念的办法。
论文链接:https://arxiv.org/pdf/2303.07345v1.pdf
此前的办法侧重于数据集过滤、post-generation 过滤或推理领导,而本文提出的办法不需要重新训练,这对于大型模型来说是不可思议的。基于推理的办法可以审查或有效引导模型输入的方式以避免生成不需要的观念。相比之下,本文的办法直接从模型的参数中将观念移除,从而可以安全地分配其权重。
图象生成中的安全问题
Stable Diffusion 文本到图象聚集模型的开源,让图象生成技术得到了极为广泛的应用,但也带来了一些问题。
为了限制不安全图象的生成,第一个 Stable Diffusion 版本绑定了 NSFW 滤波器,以便在滤波器被触发时审查图象,但由于代码和模型权重都是公开可用的,因此滤波器很容易被禁用。
为了防止敏感实质的生成,随后的 Stable Diffusion 2.0 模型对过滤的数据进行训练,以简略明显有问题的图象,实验是在 50 亿张图象的 LAION 数据集上进行的,消耗了 15 万个 GPU 时。
如此一来,整个过程的成本之高,使得在数据发生变化与涌现能力之间建立因果关系这件事极具挑战性。有些研究人员反映,从训练数据中简略明显问题图象和其他主题可能会对输入质量产生负面影响。
尽管作家们付出了一系列努力,涉及色情的实质在模型的输入中仍然很普遍:当作家利用 Inappropriate Image Prompts (I2P) 基准测试的 4703 个 prompt 来评估图象的生成结果时,他们发现当前流行的 SD1.4 模型生成了 796 张暴露的身体部位的图片,而新的受训练集限制的 SD2.0 模型产生 417 张类似图片。
另一个问题是,文本到图象模型所仿照的作品可能是受版权保护的。AI 生成的艺术作品不仅在质量上与人类生成的艺术相媲美,而且还可以忠实地复制真实艺术家的艺术风格。Stable Diffusion 和其他大型文本到图象合成系统的用户发现,诸如「art in the style of [artist]」之类的 prompt 可以仿照一定艺术家的风格,从而有可能产生侵权的作品。此前,也正是因为多位艺术家的担忧,导致了一场针对 Stable Diffusion 制作主体的法律诉讼 —— 艺术家指控 Stable Diffusion 侵犯了他们的作品。为了保护艺术家,最近的一些工作尝试于在线发布艺术作品之前对艺术作品应用对抗干扰,以防止模型仿照它。然而,这种办法并不能从预训练模型中简略模型本已学习到的艺术风格。
因此,为了解决安全和版权侵犯的问题,本文的作家们提出了一种从文本到图象模型中「擦除观念」的办法,即 Erased Stable Diffusion(ESD),可以通过微调模型参数来实现擦除,而不需要额外的训练数据。
相比于训练集审查办法,本文提出的办法速度更快,并且不需要从头开始训练整个系统。此外,ESD 可用于目前已有的模型,无需修改输入图象。相比于 post-generation 过滤或简单的黑名单办法,「擦除」是不容易被绕过的,即利用户可以访问参数。
办法
ESD 办法的目标是利用自身的知识从文本到图象聚集模型中擦除观念,而不需要额外的数据。因此,ESD 选择微调预训练模型而不是从头开始训练模型。本文办法专注于 Stable Diffusion(SD),一个由三个子网络组成的 LDM,包括一个文本编码器 T、一个聚集模型 (U-Net)θ 和一个解码器模型 D。
ESD 通过编辑预训练的聚集 U-Net 模型的权重 θ 去除一定的风格或观念。ESD 是受到了无分类器领导办法和基于分数的合成等工作的启发。具体来说,利用无分类器领导的原则来训练聚集模型,将模型的分数从想要消除的一定观念 c 中擦除,例如「Van Gogh」这种词语。利用预训练模型对观念的认知,同时让其学习将微调输入的分布的质量从该观念中移除。
聚集模型的 score-based 的公式中,目标是学习前提模型的分数。利用贝叶斯规则和
可得出:
这可以解释为具有来自分类器 pθ(c|xt) 的梯度的无前提 score。为了控制前提性的影响,作家为分类器梯度引入了一个领导因子 η
作家希望通过反转的行为来否定观念 c,因此利用负面版本的领导来训练 θ。此外,受到无分类器引导的启发,作家将等式 5 的 RHS 从分类器转换为前提聚集。
基于 Tweedie 公式以及重新参数化技巧,对数概率 score 的梯度可以表示为通过时变参数缩放的 score 函数。修改后的 score 函数移动数据分布以使对数概率 score 最大化。
方程 7 中的目标函数通对参数 θ 进行微调,使得 θ(xt,c,t) 来模拟负向引导噪声。因此,在微调后,编辑过的模型的前提预测会远离被擦除的观念。
下图展示了训练过程。利用模型对观念的知识合成训练样本,从而消除了数据收集的需要。训练利用几个聚集模型实例,其中一组参数被冻结( ),而另一组参数(θ)被训练以擦除观念。利用 θ 对前提 c 下的部分去噪图象 xt 进行采样,然后对冻结模型进行两次推理以预测噪声,一次在前提 c 下,另一次是没有任何前提。最后,线性组合这两个预测结果以抵消与观念相关的预测噪声,并将新模型朝着新目标调整。
实验
艺术风格去除
为了分析对当代实践艺术家中的艺术仿照情况,作家选取了 5 位现代艺术家和艺术作品进行考察,分别是:Kelly McKernan、Thomas Kinkade、Tyler Edlin、Kilian Eng 以及「Ajin:Demi-Human」系列作品。据报道,这些作家或作品都曾被 Stable Diffusion 模型仿照。虽然作家没有观察到该模型直接复制某些一定的原创艺术作品,但不可否认的是,该模型必然捕捉到了这些艺术风格。
图 5 展示了相关定性结果,作家还进行了用户研究(图 6)以衡量人类对艺术风格去除效果的感知。最终的实验结果验证了该观察结果,即模型已经去除了一定艺术家的风格,同时保留了 prompt 实质和结构(图 5),并且对其它艺术风格的干扰最小。
显式实质简略
在图 7 中,与 Stable Diffusion v1.4 相比,裸体分类样本的百分比变化。作家通过利用推理办法(SLD)和过滤再训练办法(SD V2.0)研究了 ESD 的有效性。对于所有模型,利用的都是由 I2P prompt 生成 4703 张图象。他们利用 Nudenet 检测器将图象分类为各种裸体种别。结论是,在弱擦除比例 η=1 时,在所有种别中,ESD 办法在擦除裸体方面效果更显著。
物体去除
表 2 中展示了原始 Stable Diffusion 模型和 ESD-u 模型在训练过程中擦除目标类时分类准确性的对比结果,同时展示了在生成剩余的九个类时的分类准确性。结果表明,ESD 能够在大多数情况下有效地去除目标类,尽管有一些种别(比如教堂)比较难去除。但未被去除的种别的分类准确性仍然很高,即使某些情况下会有一些干扰,例如,去除「法国圆号」会对其他种别造成明显的失真。作家在补充材料中提供了物体去除后的视觉效果图象。
更多研究细节,可参考原论文。