4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

本文提出了一种突破性的点云表现 4K4D,能够以 4K 分辨率对动静 3D 场景进行高保真实时衬着,达到了前所未有的衬着速率和令人印象深刻的衬着质量。当 4K 画质、60 帧视频在某些 APP 上还只能开会员观看时,AI 研究者已经把 3D 动静分解视频做到了 4K 级别,而且画面相当流畅。在现实生活中,我们接触的大多数视频都是 2D 的。在观看这种视频时,我们是没有办法选择观看视角的,比如走到演员中间,或者走到空间的某个角落。VR、AR 设备的出现弥补了这一缺陷,它们提供的 3D 视频允许我们变换视角、甚至随意走

本文提出了一种突破性的点云表现 4K4D,能够以 4K 分辨率对动静 3D 场景进行高保真实时衬着,达到了前所未有的衬着速率和令人印象深刻的衬着质量。

当 4K 画质、60 帧视频在某些 APP 上还只能开会员观看时,AI 研究者已经把 3D 动静分解视频做到了 4K 级别,而且画面相当流畅。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

在现实生活中,我们接触的大多数视频都是 2D 的。在观看这种视频时,我们是没有办法选择观看视角的,比如走到演员中间,或者走到空间的某个角落。VR、AR 设备的出现弥补了这一缺陷,它们提供的 3D 视频允许我们变换视角、甚至随意走动,沉浸感大大提升。

但是,这种 3D 动静场景的分解一直是个难点,无论是在画质上还是流畅度上。

最近,来自浙江大学、像衍科技和蚂蚁集团的研究者对这个问题发起了挑战。在一篇题为「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的论文中,他们提出了一种名为4K4D的点云表现方式,大大提升了高分辨率3D动静场景分解的衬着速率。具体来说,利用 RTX 4090 GPU,他们的方式能以 4K 分辨率进行衬着,帧率可达80 FPS;以1080p分辨率进行衬着时,帧率可达400FPS。总体来看,它的速率是以前方式的30多倍,而且衬着质量达到了SOTA。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

以下是论文简介。

论文概览4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

论文链接:https://arxiv.org/pdf/2310.11448.pdf

项目链接:https://zju3dv.github.io/4k4d/

动静视图分解旨在从捕获的视频中重建动静 3D 场景,并创建沉浸式虚拟回放,这是计算机视觉和计算机图形学中长期研究的问题。这种技术实用性的关键在于它能够以高保真度实时衬着,使其能够应用于 VR/AR、体育广播和艺术表演捕捉。传统方式将动静 3D 场景表现为纹理网格序列,并利用复杂的硬件进行重建。因此,它们通常仅限于受控环境。

最近,隐式神经表现在通过可微衬着从 RGB 视频重建动静 3D 场景方面取得了巨大成功。例如《Neural 3d video synthesis from multi-view video》将目标场景建模为动静辐射场,利用体衬着分解图象,并与输入图象进行对比优化。尽管动静视图分解结果令人印象深刻,但由于网络评估昂贵,现有方式通常需要几秒钟甚至几分钟才能以 1080p 分辨率衬着一张图象。

受静态视图分解方式的启发,一些动静视图分解方式通过降低网络评估的成本或次数来提高衬着速率。通过这些策略,MLP Maps 能够以 41.7 fps 的速率衬着前景动静人物。然而,衬着速率的挑战仍然存在,因为 MLP  Maps 的实时性能只有在分解中等分辨率(384×512)的图象时才能实现。当衬着 4K 分辨率的图象时,它的速率降低到只有 1.3 FPS。

在这篇论文中,研究者提出了一种新的神经表现 ——4K4D,用于建模和衬着动静 3D 场景。如图 1 所示,4K4D 在衬着速率上明显优于以前的动静视图分解方式,同时在衬着质量上具有竞争力。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

作者表现,他们的核心创新在于 4D 点云表现和混杂表面模型。具体而言,对于动静场景,他们利用空间雕刻算法获得粗点云序列,并将每个点的位置建模为可学习向量。他们还引入 4D 特征网格,为每个点分配特征向量,并将其输入 MLP 网络,以预测点的半径、密度和球谐函数(SH)系数。4D 特征网格自然地在点云上应用了空间正则化,使得优化更加稳健。基于 4K4D,研究者开发了一种可微深度剥离算法,利用硬件光栅化实现前所未有的衬着速率。

研究者发现,基于 MLP 的 SH 模型难以表现动静场景的表面。为了缓解这个问题,他们还引入了一个图象混杂模型来与 SH 模型结合,以表现场景的表面。一个重要的设计是,他们使图象混杂网络独立于观看方向,因此可以在训练后预先计算,以提高衬着速率。作为一把双刃剑,该策略使图象混杂模型沿观看方向离散。利用连续 SH 模型可以弥补这个问题。与仅利用 SH 模型的 3D Gaussian Splatting 相比,研究者提出的混杂表面模型充分利用了输入图象捕获的信息,从而有效地提高了衬着质量。

为了验证新方式的有效性,研究者在多个广泛利用的多视图动静新视图分解数据集上评估了 4K4D,包括 NHR、ENeRF-Outdoo、DNA-Rendering 和 Neural3DV。广泛的实验表明,4K4D 不仅衬着速率快了几个数量级,而且在衬着质量方面也明显优于 SOTA 技术。利用 RTX 4090 GPU,新方式在 DNA-Rendering 数据集上达到 400 FPS,分辨率为 1080p;在 ENeRF-Outdoor 数据集上达到 80 FPS,分辨率为 4k。

方式介绍

给定捕获动静 3D 场景的多视图视频,本文旨在重建目标场景并实时地进行视图分解。模型架构图如图 2 所示:

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

接着文中介绍了用点云建模动静场景的相关知识,他们从 4D 嵌入、几何模型以及表面模型等角度展开。

4D 嵌入:给定目标场景的粗点云,本文利用神经网络和特征网格表现其动静几何和表面。具体来说,本文首先定义了六个特征平面 θ_xy、θ_xz、θ_yz、θ_tx、θ_ty 和 θ_tz,并采用 K-Planes 策略,利用这六个平面来建模一个 4D 特征场 Θ(x, t):

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

几何模型:基于粗点云,动静场景几何结构通过学习每个点上的三个属性(entries)来表现,即位置 p ∈ R^3 、半径 r ∈ R 和密度 σ ∈ R。然后借助这些点,计算空间点 x 的体积密度。点位置 p 被建模为一个可优化的向量。通过将 Eq.(1) 中的特征向量 f 馈送到 MLP 网络中来预测半径 r 和密度 σ。

表面模型:如图 2c 所示,本文利用图象混杂技术和球谐函数(SH)模型来构建混杂表面模型,其中图象混杂技术表现离散视图表面 c_ibr,SH 模型表现连续的依赖于视图的表面 c_sh。对于第 t 帧处的点 x,其在视图方向 d 上的颜色为:

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

可微深度剥离

本文提出的动静场景表现借助深度剥离算法可以衬着成图象。

研究者开发了一个自定义着色器来实现由 K 个衬着通道组成的深度剥离算法。即对于一个特定的像素 u,研究者进行了多步处理,最后,经过 K 次衬着后,像素 u 得到一组排序点 {x_k|k = 1, …, K}。

基于这些点 {x_k|k = 1, …, K},得到体衬着中像素 u 的颜色表现为:

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

在训练过程中,给定衬着的像素颜色 C (u),本文将其与真实像素颜色 C_gt (u) 进行比较,并利用以下损失函数以端到端的方式优化模型:

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

除此以外,本文还应用了感知损失:

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

以及掩码损失:

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

最终的损失函数定义为:

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

实验及结果

本文在 DNA-Rendering、ENeRF-Outdoor、 NHR 以及 Neural3DV 数据集上评估了 4K4D 方式。

在 DNA-Rendering 数据集上的结果如表 1 所示,结果显示,4K4D 衬着速率比具有 SOTA 性能的 ENeRF 快 30 多倍,并且衬着质量还更好。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

在 DNA-Rendering 数据集上的定性结果如图 5 所示,KPlanes 无法对 4D 动静场景下的详细表面和几何形状进行恢复,而其他基于图象的方式产生了高质量的表面。然而,这些方式往往会在遮挡和边缘周围产生模糊的结果,导致视觉质量下降,相反,4K4D 可以在超过 200 FPS 的情况下产生更高保真度的衬着。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

接下来,实验展示了不同方式在 ENeRFOutdoor 数据集上的定性和定量结果。如表 2 所示,4K4D 在以超过 140 FPS 的速率进行衬着时仍然取得了明显更好的结果。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

而其他方式,如 ENeRF 产生了模糊的结果;IBRNet 的衬着结果包含图象边缘周围的黑色伪影,如图 3 所示;K-Planse 无法重建动静人体以及不同的背景区域。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

表 6 展示了可微深度剥离算法的有效性,4K4D 比基于 CUDA 的方式快 7 倍以上。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

本文还在表 7 中报告了 4K4D 在不同分辨率的不同硬件(RTX 3060、3090 和 4090)上的衬着速率。

4K画质3D分解视频不再卡成幻灯片,新方式将衬着速率提高了30多倍

更多细节请参见原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

狂揽4k star,AI通过强化进修玩宝可梦,两万场后成功拿下

2023-10-19 14:40:00

工程

复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成

2023-10-20 14:51:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索