「能不能把这张图里的产品,都放到另一张图的桌子上?」
面对这样的要求,设计师肯定会脑瓜嗡嗡的。
把指定物品放进另一张图片不像贴张贴纸一样简单,想要做到无缝接入,贴图的形状、材质、光影等等都须要在编辑软件里细致地调整。
如果有一种能让贴图穿进背景图里,它们根据你的指令自动摆好姿势、站位的「魔法」呢?
来自香港大学、阿里巴巴和蚂蚁集团的新成果 Anydoor 为图片编辑打开了一扇「任意门」。任何物品,只须要一张照片,就能被传送到另一张图片的世界中。
论文链接:https://arxiv.org/pdf/2307.09481.pdf
项目链接:https://damo-vilab.github.io/AnyDoor-Page/
例如,想让这只柯基按照涂鸦的姿势,在墙角站卧坐躺,没有问题。
让哆啦 A 梦从背着手换成向你打招呼的姿势,分分钟搞定,还保持了原本的毛毡材质质感。
交换位置,移动物品,也是小 case。
不须要实物的多角度照片,也不须要 3D 建模,就可以看到这只鞋子的正面和侧面。
把野餐布上的另一只小熊换成这只鞋,再给它做个镜像效果,画个框,就可以静待魔法生成了。重新分解后,餐布的褶皱没有产生明显的形变。
试穿衣服也能玩成贴画游戏版本,给照片贴上想要的衣服,立体的上身效果立即可见。
随着扩散模型的发展,图象编辑界卷出了不少新成果。此前的模型已经可以根据文本提示或给定图象重新生成部分的图象区域。但是这些要领对于不在训练数据内的新图象,泛化性较差,或者须要输出多个图象,在近一个小时后,才能等到生成结果。
Anydoor 做到的是「工具传送」,这意味着将宗旨工具准确无缝地放置在场景图象的期望位置。具体来说,Anydoor 以宗旨工具为模板,重新生成场景图象被框中的部分区域,在图象分解、效果图象渲染、海报制作、虚拟试穿等应用场景都很实用。
要领简介
对于给定宗旨工具、场景和位置,Anydoor 实现了高保真度和多样化的零样本工具 – 场景分解。为了做到这一点,作家的核心思想是用身份和细节高度相关的特性来表示宗旨工具,然后将它们组合到与背景场景的交互之中。作家用一个 ID 提炼器来生产有区分度的 ID token,并设计了一个以频率感知的细节提炼器来获取细节图作为补充。再将 ID token 和提炼器获得的细节图注入一个预训练好的文本到图象扩散模型中,指导生成所需的图象。
为了使定制工具生成泛化性更强,作家从视频中收集了同一工具的图象对,方便模型学习生成工具的外观变化。在保证场景多样性方面,他们运用了大规模统计图象。为了提高视频和图象学习效率,作家们还设计了一个自适应时间步长采样器,对不同的训练数据源采取不同的去噪步骤。
身份提炼特性
作家采用了预训练的视觉编码器来提炼宗旨工具的身份信息。由于 CLIP 的训练数据是粗略描述的文本图象对,只能嵌入语义级别的信息,而难以保持有区分度的工具身份表示。为了克服这一挑战,作家在宗旨图象输出 ID 提炼器之前,使用了分割器以去除背景,并将工具对齐到图象中心。此操作有助于提炼更简洁和更有辨别性的特性。
在保持高辨别度特性方面,自监督模型展现了更强大的能力。因此,作家选择了 DINO-V2 作为 ID 提炼器的底座,使用单个线性层将 ID 提炼器的 token 对齐到预训练的文本到图象的 UNet 中。
细节特性提炼
由于 ID token 会失去空间分辨率,很难保持宗旨工具的精细细节,作家尝试了将移除过背景的工具拼接到场景图象的给定位置。虽然生成保真度有了显著提高,但生成的结果与给定的宗旨过于相似,缺乏多样性。为此,作家设计了一个表示工具的高频图,它可以保持精细的细节,同时允许灵活的部分变体,如手势、照明、方向等。
特性注入
在获得 ID token 和细节图后,须要将它们注入一个预先训练好的文本到图象扩散模型中来指导生成。作家选择了 Stable Diffusion 将图象投影到潜在空间中,并使用 UNet 进行概率采样。
训练策略
在这项工作中,本文利用视频数据集来捕获包含同一工具的不同帧,数据准备流程如图 4 所示:
完整数据列在表 1 中,涵盖了自然场景、虚拟试穿、多视图工具等多种领域。
实验
该研究选择 Stable Diffusion V2.1 作为基础生成器。图 5 展示了与基于参考的图象生成要领的对比结果。Paint-by-Example 和 Graphit 支持与本文相同的输出格式,它们以宗旨图象作为输出来编辑场景图象的部分区域,而无需参数调整。此外,本文还与 Stable Diffusion 进行了比较。
图 6 表明,AnyDoor 兼具基于参考和基于调整的要领的优点,无需进行参数调整即可生成多主题分解的高保真结果。具体而言,Paint-by-Example 对于经过训练的类别(如狗和猫)(第 3 行)表现良好,但对于新概念(第 1-2 行)表现不佳。DreamBooth、Custom Diffusion 和 Cones 为新概念提供了更好的保真度,但仍然存在多主体混淆的问题。
表 2 表明本文模型在保真度和数量上,尤其是保真度方面具有明显的优势。然而,由于其他要领只保持了语义一致性,而本文要领保持了实例身份,因此它们自然具有更大的多样性空间。在这种情况下,AnyDoor 仍然获得了比 Graphit 更高的速率,并且获得了与 Paint-by-Example 有竞争力的结果,这验证了本文要领的有效性。
参考链接:
https://arxiv.org/pdf/2307.09481.pdf
https://github.com/damo-vilab/AnyDoor/tree/main
https://damo-vilab.github.io/AnyDoor-Page/
Copy-paste any object into an image with AI! 🤯
Here's one application of using AnyDoor for virtual try-on, but it's much more general and is designed to maintain texture details yet allow versatile local variations!
Links below (with code!) ⬇️⬇️ pic.twitter.com/KcZANX2beh
— Alex Carlier (@alexcarliera) December 19, 2023