不能说完全相同,只能说心情千篇一律。
防不住,根本防不住,现在 AI 摹仿能力已经发展到这种程度了?
你前脚让自己的五官乱飞,后脚,千篇一律的心情就被复现出来,瞪眼、挑眉、嘟嘴,不管多么夸张的心情,都摹仿的非常到位。
加大难度,让眉毛挑的再高些,眼睛睁的再大些,甚至连嘴型都是歪的,假造人物头像也能完美复现心情。
你在左边调节参数,右面的假造头像也会跟着变换动作:
给嘴巴、眼睛一个特写,摹仿的不能说完全相同,只能说心情千篇一律(最右边)。
这项研讨来自慕尼黑工业大学等机构,他们提出了 GaussianAvatars,这种格式可用来创建在心情,姿态和视角( viewpoint )方面完全可控的逼真头部假造( head avatars)。
论文地址:https://arxiv.org/pdf/2312.02069.pdf
论文主页:https://shenhanqian.github.io/gaussian-avatars
该研讨表示,在计算机视觉和图形学中,创造可以动的人类假造头部一直存在挑战,特别是,极端的面部心情和细节,如皱纹、头发等这些细节都很难捕捉,生成的假造人物很容易出现视觉伪影。
一直以来,神经辐射场(NeRF )及其变体在从多视图观察中重修静态场景方面显示出了令人印象深刻的结果。后续研讨又进行了扩展,使得 NeRF 可用于人类定制场景的动态场景建模。然而,这些格式缺乏可控性,因此不能很好地泛化到新的姿态和心情。
最近新出现的「3D Gaussian Splatting」格式实现了比 NeRF 更高的衬着质量,可用于实时的视图分解。然而,这种格式不允许重修输出的动画。
本文提出了 GaussianAvatars,这是一种基于三维高斯 splats 的动态 3D 人头表示格式。
具体而言,给定一个 FLAME(对整个头部进行建模)网格 ,他们在每个三角形的中心初始化一个 3D 高斯。当将 FLAME 网格动画化时,每个高斯模型都会根据其父三角形进行平移、旋转和缩放。然后,3D 高斯在网格顶部形成辐射场,补偿网格未准确对齐或无法再现某些视觉元素的区域。
为了实现重修假造人物的高保真度,本文引入了绑定继承策略。此外,本文还探索了如何平衡保真度和鲁棒性,以新颖的心情和姿态来动画化假造人物。结果表明,GaussianAvatars 在新颖视图衬着、驾驶视频重现等方面都远远优于现有的研讨。
格式简介
如下图 2 所示,GaussianAvatars 的输入是人头的多视图视频记录。对于每个时间步,GaussianAvatars 使用光度头部跟踪器(head tracker)将 FLAME 参数与多视图观察和已知相机参数相匹配。
FLAME 网格的顶点位于不同的位置,但共享相同的拓扑,因此研讨团队可以在网格三角形和 3D 高斯splat之间建立一致的连接。通过可微分的图块光栅器(tile rasterizer)将splat衬着成图象。然后,这些图象由真实图象监督,以学习逼真的人体头部头像。
静态场景还需要通过一组自适应密度控制操作来致密化和修剪高斯splat以获得最佳质量。为了在不破坏三角形和splat之间连接的情况下实现这一点,研讨团队设计了一种绑定继承(binding inheritance)策略,以便新的高斯点与 FLAME 网格保持绑定。
实验结果
该研讨通过新视图分解来评估重修质量,并通过 self-reenactment 来评估动画保真度。下图 3 显示了定性比较结果。对于新视图分解,所有格式都会产生合理的衬着结果。对 PointAvatar 的结果的仔细检查显示,由于其固定的点大小,出现了点状伪影,而 GaussianAvatars 通过3D 高斯的各向异性缩放缓解了这个问题。
从表 1 的定量比较中也可以得出类似的结论。GaussianAvatars 在新视图分解指标方面远远优于其他格式,在 self-reenactment 方面也很突出,在 LPIPS 方面的感知差异显著降低。请注意,self-reenactment 基于跟踪的 FLAME 网格,可能无法与目标图象完美对齐。
为了对假造形象动画进行现实世界的测试,该研讨对图 4 中的 cross-identity reenactment 进行了实验,假造形象准确地再现了源演员的眨眼和嘴巴动作,显示出活泼、复杂的动态,例如皱纹。
为了验证格式组件的有效性,该研讨还进行了消融实验,结果如下图。
【关注机器之心视频号,第一时间看到有趣的AI内容】