CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

可玩性极强！简笔素描一键变身多风格画作，还能增加额外的描述，这在 CMU、Adobe 联合推出的一项钻研中实现了。作者之一为 CMU 助理教授朱俊彦，其团队在 ICCV 2021 会议上发表过一项类似的钻研：仅仅使用一个或数个手绘草图，即可以自定义一个现成的 GAN 模型，进而输入与草图匹配的图象。论文地址：地址：：：One-Step Image Translation with Text-to-Image Models效果如何？我们上手试玩了一番，得出的结论是：可玩性非常强。其中输入的图象风格多样化，包括电影风

可玩性极强！

简笔素描一键变身多风格画作，还能增加额外的描述，这在 CMU、Adobe 联合推出的一项钻研中实现了。

作者之一为 CMU 助理教授朱俊彦，其团队在 ICCV 2021 会议上发表过一项类似的钻研：仅仅使用一个或数个手绘草图，即可以自定义一个现成的 GAN 模型，进而输入与草图匹配的图象。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

论文地址：https://arxiv.org/pdf/2403.12036.pdf

GitHub 地址：https://github.com/GaParmar/img2img-turbo

试玩地址：https://huggingface.co/spaces/gparmar/img2img-turbo-sketch

论文标题：One-Step Image Translation with Text-to-Image Models

效果如何？我们上手试玩了一番，得出的结论是：可玩性非常强。其中输入的图象风格多样化，包括电影风、3D 模型、动画、数字艺术、摄影风、像素艺术、奇幻画派、霓虹朋克和漫画。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

prompt 为「鸭子」。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

prompt 为「一个草木环绕的小房子」。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

prompt 为「打篮球的中国男生」。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

prompt 为「肌肉男兔子」。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

在这项工作中，钻研者对前提分散模型在图象合成应用中存在的问题进行了针对性改进。这类模型使用户可以根据空间前提和文本 prompt 生成图象，并对场景布局、用户草图和人体姿势进行精确控制。

但是问题在于，分散模型的迭代导致推理速度变慢，限制了实时应用，比如交互式 Sketch2Photo。此外模型训练通常需要大规模成对数据集，给很多应用带来了巨大成本，对其他一些应用也不可行。

为了解决前提分散模型存在的问题，钻研者引入了一种利用对抗学习目标来使单步分散模型适应新工作和新领域的通用格式。具体来讲，他们将 vanilla 潜在分散模型的各个模块整合到拥有小的可训练权重的单个端到端生成器网络，从而增强模型保存输入图象布局的能力，同时减少过拟合。

钻研者推出了 CycleGAN-Turbo 模型，在未成对设置下，该模型可以在各种场景变换工作中优于现有鉴于 GAN 和分散的格式，比如昼夜变换、增加或移除雾雪雨等天气效果。

同时，为了验证自身架构的通用性，钻研者对成对设置进行实验。结果显示，他们的模型 pix2pix-Turbo 实现了与 Edge2Image、Sketch2Photo 不相上下的视觉效果，并将推理步骤缩减到了 1 步。

总之，这项工作表明了，一步式预训练文本到图象模型可以作为很多下游图象生成工作的强大、通用主干。

格式介绍

该钻研提出了一种通用格式，即通过对抗学习将单步分散模型（例如 SD-Turbo）适配到新的工作和领域。这样做既能利用预训练分散模型的内部知识，同时还能实现高效的推理（例如，对于 512×512 图象，在 A6000 上为 0.29 秒，在 A100 上为 0.11 秒）。

此外，单步前提模型 CycleGAN-Turbo 和 pix2pix-Turbo 可以执行各种图象到图象的变换工作，适用于成对和非成对设置。CycleGAN-Turbo 超越了现有的鉴于 GAN 的格式和鉴于分散的格式，而 pix2pix-Turbo 与最近的钻研（如 ControlNet 用于 Sketch2Photo 和 Edge2Image）不相上下，但具有单步推理的优势。

增加前提输入

为了将文本到图象模型变换为图象变换模型，首先要做的是找到一种有效的格式将输入图象 x 合并到模型中。

将前提输入合并到 Diffusion 模型中的一种常用策略是引入额外的适配器分支（adapter branch），如图 3 所示。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

具体来说，该钻研初始化第二个编码器，并标记为前提编码器（Condition Encoder）。控制编码器（Control Encoder）接受输入图象 x，并通过残差连接将多个分辨率的特征映射输入到预训练的 Stable Diffusion 模型。该格式在控制分散模型方面取得了显著成果。

如图 3 所示，该钻研在单步模型中使用两个编码器（U-Net 编码器和前提编码器）来处理噪声图象和输入图象遇到的挑战。与多步分散模型不同，单步模型中的噪声图直接控制生成图象的布局和姿态，这往往与输入图象的布局相矛盾。因此，解码器接收到两组代表不同布局的残差特征，这使得训练过程更加具有挑战性。

直接前提输入。图 3 还说明了预训练模型生成的图象布局受到噪声图 z 的显着影响。鉴于这一见解，该钻研建议将前提输入直接馈送到网络。为了让主干模型适应新的前提，该钻研向 U-Net 的各个层增加了几个 LoRA 权重（见图 2）。

保存输入细节

潜在分散模型 (LDMs) 的图象编码器通过将输入图象的空间分辨率压缩 8 倍同时将通道数从 3 增加到 4 来加速分散模型的训练和推理过程。这种设计虽然能加快训练和推理速度，但对于需要保存输入图象细节的图象变换工作来说，可能并不理想。图 4 展示了这一问题，我们拿一个白天驾驭的输入图象（左）并将其变换为对应的夜间驾驭图象，采用的架构不使用跳跃连接（中）。可以观察到，如文本、街道标志和远处的汽车等细粒度的细节没有被保存下来。相比之下，采用了包含跳跃连接的架构（右）所得到的变换图象在保存这些复杂细节方面做得更好。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

为了捕捉输入图象的细粒度视觉细节，该钻研在编码器和解码器网络之间增加了跳跃连接（见图 2）。具体来说，该钻研在编码器内的每个下采样块之后提取四个中间激活，并通过一个 1×1 的零卷积层处理它们，然后将它们输入到解码器中对应的上采样块。这种格式确保了在图象变换过程中复杂细节的保存。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

实验

该钻研将 CycleGAN-Turbo 与之前的鉴于 GAN 的非成对图象变换格式进行了比较。从定性分析来看，如图 5 和图 6 显示，无论是鉴于 GAN 的格式还是鉴于分散的格式，都难以在输入图象真实感和保持布局之间达到平衡。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

该钻研还将 CycleGAN-Turbo 与 CycleGAN 和 CUT 进行了比较。表 1 和表 2 展示了在八个无成对变换工作上的定量比较结果。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

CycleGAN 和 CUT 在较简单的、以对象为中心的数据集上，如马→斑马（图 13），展现出有效的性能，实现了低 FID 和 DINO-Structure 分数。本文格式在 FID 和 DINO-Structure 距离指标上略微优于这些格式。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒

如表 1 和图 14 所示，在以对象为中心的数据集（如马→斑马）上，这些格式可以生成逼真的斑马，但在精确匹配对象姿势上存在困难。

在驾驭数据集上，这些编辑格式的表现明显更差，原因有三：（1）模型难以生成包含多个对象的复杂场景，（2）这些格式（除了 Instruct-pix2pix）需要先将图象反转为噪声图，引入潜在的人为误差，（3）预训练模型无法合成类似于驾驭数据集捕获的街景图象。表 2 和图 16 显示，在所有四个驾驭变换工作上，这些格式输入的图象质量较差，并且不遵循输入图象的布局。

CMU朱俊彦、Adobe新作：512x512图象推理，A100只用0.11秒