HumanGaussian开源：鉴于Gaussian Splatting，高质量 3D 人体生成新框架

在 3D 生成领域，根据文本提示创建高质量的 3D 人体表面和几许外形对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程，如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成，此前的一些典型工作（比如 DreamFusion

在 3D 生成领域，根据文本提示创建高质量的 3D 人体表面和几许外形对虚拟试穿、沉浸式远程呈现等应用有深远的意义。传统方法需要经历一系列人工制作的过程，如 3D 人体模型回归、绑定、蒙皮、纹理贴图和驱动等。为了自动化 3D 内容生成，此前的一些典型工作（比如 DreamFusion [1] ）提出了分数蒸馏采样 (Score Distillation Sampling)，通过优化 3D 场景的神经表达参数，使其在各个视角下衬着的 2D 图片符合大规模预训练的文生图模型分布。然而，尽管这一类方法在单个物体上取得了不错的效果，我们还是很难对具有复杂关节的细粒度人体进行精确建模。

为了引入人体构造先验，最近的文本驱动 3D 人体生成研究将 SDS 与 SMPL 等模型结合起来。具体来说，一个常见的做法是将人体先验集成到网格（mesh）和神经辐射场（NeRF）等表示中，或者通过将身体外形作为网格 / 神经辐射场密度初始化，或者通过学习鉴于线性混合蒙皮（Linear Blend Skinning）的形变场。然而，它们大多在效率和质量之间进行权衡：鉴于 mesh 的方法很难对配饰和褶皱等精细拓扑进行建模；而鉴于 NeRF 的方法衬着高分辨率结果对时间和显存的开销非常大。如何高效地实现细粒度生成仍然是一个未解决的问题。

最近，3D Gaussian Splatting（3DGS）[2] 的显式神经表达为实时场景重建提供了新的视角。它支持多粒度、多尺度建模，对 3D 人体生成任务非常适用。然而，想要使用这种高效的表达仍有两个挑战：1) 3DGS 通过在每个视锥体中排序和 alpha – 混合各向异性的高斯来表征鉴于图块的光栅化，这仅会反向传播很少一部分的高置信度高斯。然而，正如 3D 表面 / 体积衬着研究所证实的那样，稀疏的梯度可能会阻碍几许和表面的网络优化。因此，3DGS 需要构造疏导，特别是对于需要层次化建模和可控生成的人体领域。2）朴素的 SDS 需要一个较大的无分类器指导（Classifier-Free Guidance）来进行图象文本对齐（例如，在 DreamFusion [1] 中使用的 100）。但它会因过度饱和而牺牲视觉质量，使真实的人类生成变得困难。此外，由于 SDS 损失的随机性，3DGS 中原始的鉴于梯度的密度控制会变得不稳定，导致模糊的结果和浮动伪影。

在最近的一项工作中，香港中文大学、腾讯 AI Lab、北京大学、香港大学、南洋理工大学团队推出最新有效且快速的 3D 人体生成模型 HumanGaussian，通过引入显式的人体构造疏导与梯度规范化来辅助 3D 高斯的优化过程，能够生成多样且逼真的高质量 3D 人体模型。目前，代码与模型均已开源。