即使遮拦,也能衬着出高保真的 3D 人体。
AR/VR 、电影和医疗等领域都在广泛地应用视频衬着人类形象。由于单目摄像头的视频获取较为容易,因此从单目摄像头中衬着人体一直是研讨的主要方式。Vid2Avatar、MonoHuman 和 NeuMan 等法子都取得了令人瞩目的成绩。尽管只有一个摄像头视角,这些法子仍能从新的视角准确地衬着人体。
不过,大多数现有的法子在衬着人体时都是针对较为理想的尝试场景举行设计的。在这些场景中,障碍物几乎不存在,人的各个身体全体在每一帧中也都能全部展示出来。可这与现实场景大为不同。现实场景中常有多个障碍物,人体也会在移动过程中被障碍物遮拦。
大多数的神经衬着法子在处理现实世界的场景时都会因为遮拦而困难重重,其中一大原因就是缺乏监督。实际场景往往无法提供有关人体外观、形状和姿势的真实监督数据,因此模型需要根据现有的少量证据来推断其他信息,而这十分具有挑战性,尤其是大全体人体被遮拦的情况。
由于许多神经法子采用的基于点的衬着方案,当一个被遮拦和一个未被遮拦时,两个非常接近的坐标会在衬着输出上产生巨大差异。因此,那些未适应被遮拦场景的法子在遇到遮拦时经常会显示出不完备的人体,或者衬着出漂浮物和其他视觉上的错误。
最近,著名人工智能教授李飞飞在 X 上发布了有关 3D 人体衬着工作的新进展 —— 一种名为 Wild2Avatar 的新模型,该模型即使在有遮拦的情况下仍然能够完备、高保真地衬着人体。
Wild2Avatar 是一种适用于有遮拦的田野单目视频的神经衬着法子。研讨团队提出了遮拦感知场景参数化,将场景解耦为三个全体 —— 遮拦、人体和背景,分别衬着这三个全体,并设计了新颖的优化目标。
论文地址:https://arxiv.org/pdf/2401.00431.pdf
项目地址:https://cs.stanford.edu/~xtiange/projects/wild2avatar/
法子介绍
Wild2Avatar 可以为带有遮拦的田野单目视频衬着具有完备几许形状和高保真外观的 3D 人体。Wild2Avatar 模型的整体架构如下图 2 所示:
具体来说,Wild2Avatar 将遮拦物、人体和背景建模为三个独立的神经场,无论遮拦物如何,都能对人体举行清晰的三维重建。为此,该研讨采用场景自分解技术,在倒球参数化(inverted sphere parametrization)的基础上,提出了遮拦感知场景参数化。
除了倒球参数化定义的第一个球外,该研讨还引入了第二个内球,并将从摄像机到内球边缘的区域定义为遮拦区域。通过单独衬着这一区域,Wild2Avatar 成功将遮拦与场景的其他全体分离开来。
此外,为了确保高保真和完备地衬着人体,该研讨提出通过像素光度损坏、场景分解损坏、遮拦解耦损坏和几许完备性损坏的组合来汇总三种衬着。
尝试及结果
数据集
OcMotion:该数据集由人体与各种物体接触的室内场景组成,同时被这些物体全体遮拦。研讨者从该数据集的 48 个视频中选用了 5 个,它们展示了不同程度的遮拦。他们从每个视频中只抽取了 100 帧来训练模型,并使用数据集提供的相机矩阵、人体姿势和 SMPL 参数来初始化优化过程。帧内的二进制人体分割掩码是通过「分割一切 (SAM)」获得的。
田野视频:研讨者对两段真实世界的视频举行了额外的尝试,其中一段是从 YouTube 下载的,另一段是研讨团队使用手机摄像头拍摄的。他们从这两段视频中抽取了 150 帧举行训练,并使用 SLAHMR 获取了摄像机矩阵、人体姿势和 SMPL 参数。由于没有提供真实姿势,因此对这些视频的评估也表明了各种法子对不准确估计的稳健性。
被遮拦单目摄像头视频上的结果
图 5 比力了 Vid2Avatar 和 Wild2Avatar 在两个数据集上的衬着结果。
在表 1 中,研讨者报告了两种法子的量化结果,并观察到二者在可见全体的衬着性能不相上下。不过,需要注意的是,Wild2Avatar 在身体几许形状和遮拦全体的衬着质量上始终优于 Vid2Avatar。
与 OccNeRF 的比力
研讨者将 Wild2Avatar 与最近推出的遮拦人体衬着软件 OccNeRF 举行比力。比力结果如图 6 所示。
为了举行公平比力,他们分别在 500 帧和 100 帧图像上对 OccNeRF 举行了训练。由于没有隐式 SDF 表征,OccNeRF 存在浮游物和伪影等常见缺陷。虽然 OccNeRF 也能恢复被遮拦的人体部位,但人体通常会意外扭曲,导致衬着质量较低。
场景分解的可视化
Wild2Avatar 以组合的方式衬着了三个场景全体。人和背景 / 遮拦物分别在两个不同的神经场中建模。图 7 展示了这三个场景全体的单独衬着图。需要注意的是,由于这项工作只专注于人体衬着,因此背景和遮拦物的无伪影衬着不在这项工作的讨论范围内。
消融尝试
尽管 Wild2Avatar 仍能恢复被遮拦的外观,但在没有提出的参数化的情况下,衬着结果中会出现许多伪影,见图 8 第一行。
如果不采用建议的损坏函数,则无法完全恢复被遮拦的区域,见图 8 第二行。
提出的损坏函数作为一个正则化器,强制人体几许形态与 SMPL 网格先验保持一致,这防止了错误姿势的衬着,见图 8 第三行。
更多详细内容,请阅读原论文。