NVIDIA提出虚拟试衣新方法EARSB,让时尚与科技完美融合!

在数字化浪潮席卷全球的今天,科技正以前所未有的方式融入我们的生活,包括我们追求时尚的方式。 想象一下,无需亲临实体店,只需轻点屏幕,就能轻松试穿心仪的衣物,这不再是遥不可及的梦想。 NVIDIA联合波士顿大学提出了 EARSB,该模型能够智能地识别并修正初始试衣图像中的错误区域,能够针对特定错误进行精准修正,显著提升试衣效果的真实感和细节表现。

在数字化浪潮席卷全球的今天,科技正以前所未有的方式融入我们的生活,包括我们追求时尚的方式。想象一下,无需亲临实体店,只需轻点屏幕,就能轻松试穿心仪的衣物,这不再是遥不可及的梦想。NVIDIA联合波士顿大学提出了 EARSB,该模型能够智能地识别并修正初始试衣图像中的错误区域,能够针对特定错误进行精准修正,显著提升试衣效果的真实感和细节表现。可以利用人类图像生成合成服装图像,从而创建(人类,合成服装)对。这些合成对极大地丰富了训练数据集,使得虚拟试衣模型的训练更加高效和准确。

图片

相关链接

  • 论文:http://arxiv.org/abs/2501.04666v1

论文介绍

给定一个标准产品视图中的孤立服装图像和一个单独的人物图像,虚拟试穿任务旨在生成穿着目标服装的人的新图像。 先前的虚拟试穿工作在实现这一目标时面临两大挑战:

  1. 配对的(人类,服装)训练数据可用性有限;
  2. 生成与提示服装完美匹配的人体纹理很困难,通常会导致文本扭曲和纹理褪色。

论文探索了通过合成数据和模型细化解决这些问题的方法。引入了一种服装提取模型,该模型可以从穿着衣服的个体的单个图像生成(人类,合成服装)对。 然后可以使用合成对来增强虚拟试穿的训练。 论文还提出了一种基于错误感知细化的薛定谔桥(EARSB),它可以精确地针对局部生成错误来纠正基础虚拟试穿模型的输出。为了识别可能的错误,论文提出了一个弱监督错误分类器,它可以定位区域以进行细化,随后使用其置信度热图增强 Schrodinger Bridge 的噪声计划。在 VITON-HD 和 DressCode-Upper 上的实验表明,合成数据增强增强了先前工作的性能,而 EARSB 提高了整体图像质量。在用户研究中,该模型在平均 59% 的情况下受到用户的青睐。

图片

方法

图片基于细化的 EARSB 中的扩散过程。首先对输入图像进行预处理,然后使用基本试穿模型,该模型将蒙版人体图像 x¯0、其姿势表示 P 及其服装 C 作为输入,以生成初始人体图像 x1。x1 被输入到我们的弱监督分类器 (WSC) 以获得误差图 M。该图将噪声分布 ϵ 重新加权为 I 2SB 扩散中的 ϵr,并将具有生成误差的 x1 细化为地面真实图像x0。

实验

数据集

数据集。我们使用 VITON-HD、DressCode-Upper 以及我们的合成 H2G-UH 和 H2G-FH 进行训练。它们分别包括11,647、13,564、12,730、8,939 张训练图像。对于合成数据增强,我们将 VITON-HD 与我们的 H2G-UH 相结合,因为它们都主要包含人体上半身图像。DressCode-Upper 与 H2G-FH 相结合,因为两者都由全身人体照片组成。

对于评估,VITON-HD 包含 2,032 个(人体、服装)测试对,DressCode-Upper 有 1,800 个测试对。针对配对和非配对设置进行了实验。在配对设置中,输入服装图像和人体图像中的服装是同一件物品。相反,非配对设置使用不同的服装图像。指标。我们使用结构相似性指数测量 (SSIM) 、Frechet 初始距离 (FID) 、核初始距离 (KID) 和学习感知图像块相似性 (LPIPS) 来评估图像质量。所有比较的方法在计算上述指标时都使用相同的图像大小 512x512和填充。

结果

图片VITON-HD(上行)和 DressCode(下行)上的可视化。EARSB+H2G-UH 和 EARSBSD+H2G-UH 更好地恢复了服装中复杂的纹理。

图片

不同时间步骤的结果。提出方法的误差图重点关注低质量区域,并保持足够好区域的质量。

图片

提出的 H2G-UH 上的(人体、合成服装)对的可视化示例。

图片

VITON-HD 上的可视化示例。EARSB 和 EARSB+H2G-UH 更好地恢复了服装中复杂的纹理。

结论

本文提出了一种方法来解决虚拟试穿方面的先前研究的两个缺点。首先通过引入人衣模型来解决数据可用性有限的问题,该模型可以从穿着衣服的个体的单张图像生成(人衣、合成服装)对。其次提出了一个改进模型 EARSB,该模型可以精准地针对先前模型输出中的局部生成误差。EARSB 根据针对已知伪影的空间变化噪声计划改进了初始生成图像的低质量区域。在两个基准数据集上进行的实验表明合成数据增强提高了现有方法的性能,并且 EARSB 提高了先前模型生成的图像的质量。

相关资讯

百度李士岩:两年内,每个人有望实现「数字人自由」

元宇宙无疑是2021年的概念顶流,在巨头下场、web 3.0加速构建过程中,虚拟数字人作为元宇宙的场景入口与连接纽带也备受瞩目。今年的江苏卫视跨年晚会上,周深与邓丽君跨时空合唱《大鱼》刷屏。

日本横须贺市尝试由“AI 市长”发布英语信息,将用于观光导览

感谢据日本共同社报道,日本神奈川县横须贺市于当地时间 23 日(昨日)宣布,将尝试使用生成式 AI 创建该市市长上地克明的虚拟分身,让其用流利的英语介绍例行记者会概要,发布信息。上地克明在记者会上表示:“我不会说英语,但通过 AI 就能传达想法。如果能像我本人在说话那样发布信息,将成为很棒的观光导览。”据悉,这个“虚拟市长”首先需要借助生成式 AI 学习市长真人的表情、音色、动作等,目标是创建与本人“一模一样”的虚拟分身。输出内容方面,将由外籍职员来校对 ChatGPT 概括、翻译的市长记者会内容。在完成文本的输入

谷歌 AI 攻克连衣裙,数百品牌商品任你虚拟试穿

谷歌公司于 9 月 5 日周四发布新闻稿,宣布扩充和增强 AI 虚拟试穿工具,现支持用户虚拟试穿来自 Boden、Maje、Sandro、Simkhai 和 Staud 等数百个品牌的数千件连衣裙。谷歌表示连衣裙是该工具搜索次数最多的服装类别之一,但由于连衣裙相比较其它服装更细致和复杂,现有的 AI 扩散技术难以捕捉花卉或几何图案等印花细节,存在较大的挑战。此外,由于连衣裙通常覆盖身体的大部分,并有不同的长度(如中裙、大裙和迷你裙),给人穿上虚拟连衣裙往往会导致身体细节模糊不清。谷歌公司去年发布 AI 虚拟试穿工具