一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

作者：清源

2024-04-28 09:30

笑不活，最新虚拟试穿神器被网友们玩坏了。黄院士、马斯克、阿尔特曼、史密斯等一众大佬衣服集体被扒。前有老黄卸下皮衣套上糖果包装袋：后有阿尔特曼大秀花臂穿 GUCCI：再有老马变成了蛛蛛侠：好莱坞巨星史密斯也风格大变：但说回研究本身，确实正儿八经的研究。名为 IDM–VTON，由来自韩国科学技术院和 OMNIOUS.AI 公司的研究团队基于扩散模型打造。目前官方放出了 demo，大伙儿可以试玩，推理代码已开源。除了开头所展示的，抱抱脸研究员也玩得不亦乐乎，给老黄换上了专属战袍。其 CEO 连忙转发打趣：我被替代了，没法

笑不活，最新虚拟试穿神器被网友们玩坏了。黄院士、马斯克、阿尔特曼、史密斯等一众大佬衣服集体被扒。

前有老黄卸下皮衣套上糖果包装袋：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

后有阿尔特曼大秀花臂穿 GUCCI：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

再有老马变成了蛛蛛侠：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

好莱坞巨星史密斯也风格大变：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

但说回研究本身，确实正儿八经的研究。

名为 IDM–VTON，由来自韩国科学技术院和 OMNIOUS.AI 公司的研究团队基于扩散模型打造。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

目前官方放出了 demo，大伙儿可以试玩，推理代码已开源。

除了开头所展示的，抱抱脸研究员也玩得不亦乐乎，给老黄换上了专属战袍。其 CEO 连忙转发打趣：

我被替代了，没法和他争 CEO。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

看热闹的网友也是感慨，经过这么多年，终于不用再担心自己“手残”了（AI 帮你搞定）。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

来玩啊～

我们也赶紧上手体验了一把。demo 整个页面是这样的：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

操作起来也是非常简单。

首先上传人物图，可以手动或者自动选择要修改的区域。然后，上传要换的衣服。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

直接点击 Try-on，会自动生成掩模图和换装后的图：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

上面这张自动生成的掩模把手也选进去了，所以最后生成的左手效果不好。

我们手动选取涂抹一下，同时人和衣服全部都用我们自己的图。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

这次效果大伙儿觉得如何？

再来展示一波网友的试玩成品图。DeepMind 联合创始人苏莱曼穿上了微笑面具修格斯联名款 T 恤：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

甚至不少网友真想要这件衣服。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

阿尔特曼再次被网友当成模特：

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

当然也有翻车的时候，比如马斯克穿的就是山寨 CUCCI。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

看完效果后，接着来看 IDM–VTON 在技术上是如何实现的。

基于扩散模型

技术方面，IDM–VTON 基于扩散模型，通过设计精细的注意力模块来提高服装图像的一致性，并生成真实的虚拟试穿图像。

模型架构大概包含三部分：

TryonNet：主 UNet，处理人物图像。

IP-Adapter：图像提示适配器，编码服装图像的高级语义。

GarmentNet：并行 UNet，提取服装的低级特征。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

在为 UNet 提供输入时，研究人员将人物图片的含噪声潜在特征、分割掩模、带掩蔽的图片和 Densepose 数据整合在一起。

他们还会为服装添加详细描述，例如 [V] 表示“短袖圆领 T 恤”。这个描述随后用作 GarmentNet（例如，“一张 [V] 的照片”）和 TryonNet（例如，“模特正在穿 [V]”）的输入提示。

TryonNet 和 GarmentNet 产生的中间特征进行了合并，随后传递至自我注意力层。研究人员只使用了来自 TryonNet 的输出的前半部分。这些输出与文本编码器和 IP-Adapter 的特征一起，通过交叉注意力层进行融合。

最终，研究人员对 TryonNet 和 IP-Adapter 模块进行了精细调整，并锁定了模型的其它部分。

实验阶段，他们使用 VITON-HD 数据集训练模型，并在 VITON-HD、DressCode 和内部收集的 In-the-Wild 数据集上进行评估。

IDM–VTON 在定性和定量上都优于先前的方法。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

IDM-VTON 可以生成真实的图像并保留服装的细粒度细节。

一键换装神器爆火，老黄换上抱抱脸 T 恤，CEO 本人：我被替代了，和他争 CEO 职位争不过

更多细节，感兴趣的家人们可以查看原论文。

项目链接：

[1]https://idm-vton.github.io/?continueFlag=589fb545dbbb123446456b65a635d849

[2]https://arxiv.org/abs/2403.05139

[3]https://huggingface.co/spaces/yisol/IDM-VTON?continueFlag=589fb545dbbb123446456b65a635d849

参考链接：

[1]https://twitter.com/multimodalart/status/1782508538213933192

[2]https://twitter.com/fffiloni/status/1783158082849108434

[3]https://twitter.com/ClementDelangue/status/1783179067803533577

本文来自微信公众号：量子位（ID：QbitAI），作者：西风

相关标签：

模型图像 IDM VTON TryonNet

相关资讯

写给小白的大模型入门科普

写给小白的大模型入门科普

什么是大模型？大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。

拖拽公式图片、一键转换LaTex公式，这款开源公式识别神器比Mathpix Snip更适合你

拖拽公式图片、一键转换LaTex公式，这款开源公式识别神器比Mathpix Snip更适合你

只需要把公式图片用鼠标拖动到工具内，就能一键转成 LaTex 公式。

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

华人一作统一「视觉-语言」理解与生成：一键生成图像标注，完成视觉问答，Demo可玩

这个 BLIP 模型可以「看图说话」，提取图像的主要内容，不仅如此，它还能回答你提出的关于图像的问题。

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元从DeepSeek-V3发布谈大模型的技术突破与未来机遇 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机 GPT-4o最自私，Claude更慷慨！DeepMind发布全新「AI道德测试」全网都在扒的DeepSeek团队，是清北应届生撑起一片天 Just keep scaling！思维链作者Jason Wei 40分钟讲座剖析LLM扩展范式奥特曼回应一切：宫斗、马斯克、ChatGPT两周年

标签云