拍张照片,输出文字指令,手机就开始自动修图?
这一神奇功能,来自苹果刚刚开源的图片编写神器「MGIE」。
把背景中的人移除
在桌子上添加披萨
最近一段时间,AI 在图片编写这一应用上取得了不小的进展。一方面,在 LLM 的基础上,多模态大模型(MLLM)可以自然地将图象视为输出,并供给视觉感知响应。另一方面,基于指令的编写技术可以不依赖于详细描述或区域掩码,而是允许人类下达指令,直接表白如何编写以及编写图象的哪个方面。这种方法极具实用性,因为这种带领更符合人类的直觉。
基于上述技术的启发,苹果提出了 MGIE(MLLM-Guided Image Editing),将 MLLM 用于解决指令带领不足的问题。
论文标题:Guiding Instruction-based Image Editing via Multimodal Large Language Models
论文链接:https://openreview.net/pdf?id=S1RKWSyZ2Y
项目主页:https://mllm-ie.github.io/
如图 2 所示,MGIE 由 MLLM 和分散模型组成。MLLM 通过进修获得简明的表白指令,并供给明确的视觉相干带领。通过端到端训练,分散模型会同步更新,并利用预期目的的潜伏猜想力执行图象编写。这样,MGIE 就能从固有的视觉推导中获益,并解决模糊的人类指令,从而实现合理的编写。
在人类指令的带领下,MGIE 可举行 Photoshop 风格的修改、全局照片优化和局部对象修改。以下图为例,在没有额外语境的情况下,很难捕捉到「健康」的含义,但 MGIE 可以将「蔬菜配料」与披萨精确地联系起来,并按照人类的期望举行相干编写。
这让我们想起,库克前不久在财报电话会议上表白的「雄心壮志」:「我认为苹果在生成式 AI 方面存在着巨大的机会,但我不想谈更多细节。」他透露的信息包括,苹果正在积极开发生成式 AI 软件功能,且这些功能在 2024 年晚些时候就能向客户供给。
结合苹果在近段时间发布的一系列生成式 AI 理论研讨成果,看来我们期待一下苹果接下来要发布的新 AI 功能了。
论文细节
该研讨提出的 MGIE 方法能够通过给定的指令 X 将输出图片 V 编写为目的图片 。对于那些不精确的指令,MGIE 中的 MLLM 会举行进修推导,从而得到简明的表白指令 ε。为了在语言和视觉模态之间架起桥梁,研讨者还在 ε 之后添加了特殊的 token [IMG],并采用编写头(edit head)对它们举行转换。转换后的信息将作为 MLLM 中的潜伏视觉猜想,带领分散模型实现预期的编写目的。然后,MGIE 能够理解具有视觉感知的模糊命令,从而举行合理的图象编写(架构图如上图 2 所示)。
简明的表白指令
通过特征对齐和指令调整,MLLM 能够跨模态感知供给与视觉相干的响应。对于图象编写,该研讨使用提示「what will this image be like if [instruction]」作为图象的语言输出,并导出编写命令的详细解释。然而,这些解释往往过于冗长、甚至误导了用户意图。为了获得更简明的描述,该研讨应用预训练摘要器让 MLLM 进修生成摘要输出。这一过程可以总结为如下方式:
通过潜伏猜想举行图片编写
该研讨采用编写头 将 [IMG] 转化为实际的视觉带领。其中 是一个序列到序列模型,它将来自 MLLM 的连续视觉 tokens 映射到语义上有意义的潜伏 U = {u_1, u_2, …, u_L} 并作为编写带领:
为了实现通过视觉猜想 U 带领图象编写这一过程,该研讨考虑使用分散模型,该模型在包含变分自动编码器(VAE)的同时,还能解决潜伏空间中的去噪分散问题。
算法 1 展示了 MGIE 进修过程。MLLM 通过指令损失 L_ins 导出简明指令 ε。借助 [IMG] 的潜伏猜想,转变其模态并带领 合成结果图象。编写损失 L_edit 用于分散训练。由于大多数权重可以被冻结(MLLM 内的自注意力块),因而可以实现参数高效的端到端训练。
实验评估
对于输出图片,在相同的指令下,不同方法之间的比较,如第一行的指令是「把白天变成黑夜」:
表 1 显示了模型仅在数据集 IPr2Pr 上训练的零样本编写结果。对于涉及 Photoshop 风格修改的 EVR 和 GIER,编写结果更接近带领意图(例如,LGIE 在 EVR 上获得了更高的 82.0 CVS)。对于 MA5k 上的全局图片优化,由于相干训练三元组的稀缺,InsPix2Pix 很难处理。LGIE 和 MGIE 可以通过 LLM 的进修供给详细的解释,但 LGIE 仍然局限于其单一的模态。通过访问图象,MGIE 可以得出明确的指令,例如哪些区域应该变亮或哪些对象更加清晰,从而带来显著的性能提升(例如,更高的 66.3 SSIM 和更低的 0.3 拍照距离),在 MagicBrush 上也发现了类似的结果。MGIE 还从精确的视觉猜想中获得最佳性能,并修改指定目的作为目的(例如,更高的 82.2 DINO 视觉相似度和更高的 30.4 CTS 全局字幕对齐)。
为了研讨针对特定目的的基于指令的图象编写,表 2 对每个数据集上的模型举行了微调。对于 EVR 和 GIER,所有模型在适应 Photoshop 风格的编写任务后都获得了改进。MGIE 在编写的各个方面始终优于 LGIE。这也说明了使用表白指令举行进修可以有效地增强图象编写,而视觉感知在获得最大增强的明确带领方面起着至关重要的作用。
α_X 和 α_V 之间的权衡。图象编写有两个目的:操作作为指令的目的和保留作为输出图象的剩余部分。图 3 显示了指令 (α_X) 和输出一致性 (α_V) 之间的权衡曲线。该研讨将 α_X 固定为 7.5,α_V 在 [1.0, 2.2] 范围内变化。α_V 越大,编写结果与输出越相似,但与指令的一致性越差。X 轴计算的是 CLIP 方向相似度,即编写结果与指令的一致程度;Y 轴是 CLIP 视觉编码器与输出图象的特征相似度。通过具体的表白指令,实验在所有设置中都超越了 InsPix2Pix。此外, MGIE 还能通过明确的视觉相干带领举行进修,从而实现全面提升。无论是要求更高的输出相干性还是编写相干性,这都支持稳健的改进。
消融研讨
除此以外,研讨者还举行了消融实验,考虑了不同的架构 FZ、FT 以及 E2E 在表白指令上的性能 。结果表明,在 FZ、FT、E2E 中,MGIE 持续超过 LGIE。这表明具有关键视觉感知的表白指令在所有消融设置中始终具有优势。
为什么 MLLM 带领有用?图 5 显示了输出或 ground-truth 目的图象与表白式指令之间的 CLIP-Score 值。输出图象的 CLIP-S 分数越高,说明指令与编写源相干,而更好地与目的图象保持一致可供给明确、相干的编写带领。如图所示,MGIE 与输出 / 目的更加一致,这就解释了为什么其表白性指令很有帮助。有了对预期结果的清晰叙述,MGIE 可以在图象编写方面取得最大的改进。
人工评估。除了自动指标外,研讨者还举行了人工评估。图 6 显示了生成的表白指令的质量,图 7 对比了 InsPix2Pix、LGIE 和 MGIE 在指令遵循、ground-truth 相干性和整体质量方面的图象编写结果。
推理效率。尽管 MGIE 依靠 MLLM 来推动图象编写,但它只推出了简明的表白式指令(少于 32 个 token),因此效率与 InsPix2Pix 不相上下。表 4 列出了在英伟达 A100 GPU 上的推理时间成本。对于单个输出,MGIE 可以在 10 秒内完成编写任务。在数据并行化程度更高的情况下,所需的时间也差不多(当批大小为 8 时,需要 37 秒)。整个过程只需一个 GPU(40GB)即可完成。
定性比较。图 8 展示了所有使用数据集的可视化对比,图 9 进一步对比了 LGIE 或 MGIE 的表白指令。
在项目主页中,研讨者还供给了更多 demo(https://mllm-ie.github.io/)。更多研讨细节,可参考原论文。