革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

本文经AIGC Studio公众号授权转载,转载请联系出处。 在这个数字化飞速发展的时代,图像与视频合成技术正以前所未有的速度重塑着我们的生活,尤其在在线零售领域,一场关于购物体验的革命正在悄然上演。 想象一下,无需亲自试穿,仅凭一张照片或一段视频,就能精准预览任何心仪服装的上身效果——这听起来仿佛科幻电影中的场景,中山大学和新加坡国立大学提出的基于视觉的虚拟试穿(CatV2TON)技术正将其变为现实。

本文经AIGC Studio公众号授权转载,转载请联系出处。

在这个数字化飞速发展的时代,图像与视频合成技术正以前所未有的速度重塑着我们的生活,尤其在在线零售领域,一场关于购物体验的革命正在悄然上演。想象一下,无需亲自试穿,仅凭一张照片或一段视频,就能精准预览任何心仪服装的上身效果——这听起来仿佛科幻电影中的场景,中山大学和新加坡国立大学提出的基于视觉的虚拟试穿(CatV2TON)技术正将其变为现实。

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

相关链接

  • 论文:http://arxiv.org/abs/2501.11325v1
  • 主页:https://github.com/Zheng-Chong/CatV2TON

论文介绍

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

虚拟试穿 (VTON) 技术因其通过实现图像和视频的逼真服装可视化来改变在线零售的潜力而备受关注。然而,大多数现有方法都难以在图像和视频试穿任务中获得高质量的结果,尤其是在长视频场景中。

CatV2TON是一种简单有效的基于视觉的虚拟试穿 (V2TON) 方法,它使用单个扩散变压器模型支持图像和视频试穿任务。通过在时间上连接服装和人员输入并在混合图像和视频数据集上进行训练,CatV2TON在静态和动态设置中实现了强大的试穿性能。

为了高效地生成长视频,论文还提出了一种基于重叠剪辑的推理策略,该策略使用顺序帧引导和自适应剪辑规范化 (AdaCN) 来保持时间一致性并减少资源需求。还介绍了 ViViD-S,这是一个经过精炼的视频试穿数据集,通过过滤背面帧并应用 3D 蒙版平滑来增强时间一致性。综合实验表明,CatV2TON 在图像和视频试穿任务中均优于现有方法,为跨不同场景的逼真虚拟试穿提供了多功能且可靠的解决方案。

方法

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

CatV2TON 架构概述。 CatV2TON 使用 DiT 作为主干,第一个 DiT 块被复制为Pose Encoder。人和服装条件在时间上连接为试穿条件。整个可训练部分仅由自注意力层和 Pose Encoder 组成,占总参数的不到 1/5。

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

基于重叠片段的推理策略说明。(a)一段长视频被分成 n 个重叠片段,每个片段由重复的帧组成。每个片段的最后 k 帧用作生成下一个片段的提示帧。(b)自适应片段归一化 (AdaCN) 用于根据提示帧特征和去噪提示帧的平均值和标准差对整个片段进行归一化,确保生成的视频中各个片段之间的平滑连续性。

结果

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

在 ViViD 数据集上对连衣裙进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的简称。

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

在 ViViD 数据集上进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的缩写。

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

对 ViViD 数据集进行定性比较。我们使用 Stable 和 OOTD 作为 StableVITON 和 OOTDiffusion 的缩写。

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

关于 AdaCN 的消融视觉结果。当不使用 AdaCN 进行推理时,试穿结果中的服装部分将出现色差问题,并且通常会随着视频长度的增加而加剧。

结论

CatV2TON是一个简单而高效的扩散变换器框架,适用于图像和视频虚拟试穿任务。通过时间连接服装和人员输入并使用混合图像视频数据集进行训练,模型仅使用 20% 的主干参数作为可训练组件即可获得高质量的结果。为了支持长时间、时间一致的试穿视频生成,引入了一种基于重叠剪辑的推理策略和自适应剪辑规范化 (AdaCN),在保持时间连续性的同时减少了资源需求。

此外论文提出了一个精选的视频试穿数据集 ViViD-S,它是通过过滤后视帧并应用 3D 蒙版平滑来增强蒙版的时间一致性而创建的。大量实验表明,CatV2TON 在定量和定性评估方面均优于基线方法,标志着基于视觉的虚拟试穿研究统一模型向前迈出了重要一步。

相关资讯

AIGCRank:2024年6月全球AI网站增长排行榜

AI在线 发布 2024年6月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜,并联合 哥飞的朋友们出海社群 发布出海AI网站流量排行榜!

NVIDIA提出虚拟试衣新方法EARSB,让时尚与科技完美融合!

在数字化浪潮席卷全球的今天,科技正以前所未有的方式融入我们的生活,包括我们追求时尚的方式。 想象一下,无需亲临实体店,只需轻点屏幕,就能轻松试穿心仪的衣物,这不再是遥不可及的梦想。 NVIDIA联合波士顿大学提出了 EARSB,该模型能够智能地识别并修正初始试衣图像中的错误区域,能够针对特定错误进行精准修正,显著提升试衣效果的真实感和细节表现。

百度李士岩:两年内,每个人有望实现「数字人自由」

元宇宙无疑是2021年的概念顶流,在巨头下场、web 3.0加速构建过程中,虚拟数字人作为元宇宙的场景入口与连接纽带也备受瞩目。今年的江苏卫视跨年晚会上,周深与邓丽君跨时空合唱《大鱼》刷屏。