年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

来自以色列特拉维夫大学的钻研者在生成图象方面又有了新的升级,所用法子在保留源图象身份的同时,在细节编写上实现了更精细的结果。

英伟达提出的风格迁移模型 StyleGAN 系列,一直是人们用来进行各类脑洞画图试验的流行工具。从生成二次元「老婆」,照片修图,到人物的卡通化,最近几年基于这种技术的应用不一而足。

然而 StyleGAN 也一直有着自己的不足,近年来的各种改进也未能让其在反向生成、细节编写上实现精细的结果。什么时候我们才能让 AI 随心所欲地修改真人照片呢?

今年 6 月,这样的钻研终于出现了。

在以色列特拉维夫大学的论文《Pivotal Tuning for Latent-based Editing of Real Images》中,钻研人员通过添加一个简短的训练过程,让 StyleGAN 有了焕然一新的升级。

它的生成结果是这样的,生成更年轻和浅笑的 Yann LeCun:

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

还有更年轻和脸部旋转后的吴恩达:

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

下图中,输入小威廉姆斯、小罗伯特 · 唐尼以及小丑等人的照片,经过处理后,生成了浅笑、换发型、老年、张嘴、去胡须、摆 pose 等多样化的形象:

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

不得不说,结果看起来真不错!

钻研介绍

最近,一波先进的脸部编写技术被提出,这些技术利用预训练 StyleGAN 的图象生成能力。要用这种法子成功地编写图象,必须首先将图象投影到预先训练好的生成器域中。然而,事实证明,StyleGAN 的潜伏空间在失真和可编写性之间产生了内在的折衷,即在放弃原始表面和改观其某些属性之间需要折中。

实际上,这意味着将保留 ID 的脸部潜伏空间编写应用于生成器域之外的脸部仍然具有挑战性。在本文中,来自以色列特拉维夫大学的钻研者提出了一种法子来弥补这一差距。该钻研稍微改观了生成器,使得一个域外的图象如实的被映射到一个域内的潜码。该钻研一个关键的调整,一个简短的训练过程,保留域内潜伏区域的编写质量,同时改观其描述的身份和表面。

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

论文地点:https://arxiv.org/pdf/2106.05744.pdf

GitHub 地点:https://github.com/danielroich/PTI

Colab 地点: 

https://colab.research.google.com/github/danielroich/PTI/blob/main/notebooks/inference_playground.ipynb

在钻研者提出的 PTI(Pivotal Tuning Inversion)中,初始反向潜码充当枢轴(pivotal),你可以围绕它微调生成器。同时,正则化项放弃附近的身份信息不变,放弃局部信息影响。这种训练过程最终会改观身份的表面特征,而不会影响编写能力。为了补充这一点,该钻研进一步表明,枢轴调整(pivotal tuning)还可以调整生成器以适应多个人脸,同时在域的其余部分引入可忽略的失真。

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

PTI 法子的示意图。

该钻研主要是使用 StyleGAN 为真实图象提供生成高质量的编写。由于 StyleGAN 的特性,可以对其生成的表面进行细微的局部更改,而不会损害其强大的编写功能。因此,给定一张图象,可能表面看起来不正常(例如一个人处在极端的照明条件下,或浓妆艳抹,或夸张的发型和头饰),该钻研建议在生成器的域内找到最近的可编写点。然后这些点可以被拉向目标,对周围的域影响微乎其微,对其他域的影响也微乎其微。

试验

试验采用 StyleGAN2 生成器 ,对于脸部图象,钻研者使用在 FFHQ 数据集上预训练的生成器进行处理,并使用 CelebA-HQ 数据集进行评估。此外,该钻研还收集了一些其他名人的图象,以突出显示该钻研放弃身份的能力。

钻研者采用以下指标:像素级距离 MSE、感知近似度 LPIPS 、结构近似度 MS SSIM 、以及利用预训练的人脸识别网络实现身份近似度。结果如下表所示。可以得出在每个指标上,该钻研都是最佳得分。

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

如下图所示,即使不考虑可编写性,该钻研的法子对所有的例子都获得了较好的重修结果,特别是域外的例子,因为该法子是唯一可以成功的重修具有挑战性的细节,如脸部绘画或手等细节。

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

此外,该钻研提出的法子还能够重修很多细节,如妆容、光线、皱纹等。

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

图 6 显示了对 CelebA-HQ 数据集的编写比较,演示了姿势(顶部)和浅笑收敛(底部)编写。由结果可得在 SG2 W + 上的编写不会产生所需的结果,例如,底部行中的嘴没有闭合。SG2 和 e4e 实现了更好的编写,但失去了原有的身份。PTI 在放弃身份的同时实现了高质量的编写。

年轻的LeCun、吴恩达长啥样?升级版StyleGAN告诉你

给TA打赏
共{{data.count}}人
人已打赏
AI

目睹太多读博惨案之后,清华姚班助理传授写了个读博决策树

2021-6-24 17:40:00

AI

参加这场大佬云集的开发者大会,还能抽RTX3060,请叫我「良心之心」

2021-6-25 14:26:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索