加速70倍!支持4K分辨率!ETH全新开源PanSplat:全景GS重建和新视角合成SOTA!

论文信息标题:PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting作者:Cheng Zhang, Haofei Xu, Qianyi Wu, Camilo Cruz Gambardella, Dinh Phung, Jianfei Cai机构:Monash University、Building 4.0 CRC, Caulfield East, Victoria, Australia、ETH Zurich原文链接::. 导读随着便携式360°摄像机的出现,全景在虚拟现实(VR)、虚拟旅游、机器人和自动驾驶等应用中获得了极大的关注。 因此,宽基线全景视图合成已经成为一项至关重要的任务,其中高分辨率、快速推理和存储效率是必不可少的。

0. 论文信息

标题:PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting

作者:Cheng Zhang, Haofei Xu, Qianyi Wu, Camilo Cruz Gambardella, Dinh Phung, Jianfei Cai

机构:Monash University、Building 4.0 CRC, Caulfield East, Victoria, Australia、ETH Zurich

原文链接:https://arxiv.org/abs/2412.12096

代码链接:https://github.com/chengzhag/PanSplat

1. 导读

随着便携式360°摄像机的出现,全景在虚拟现实(VR)、虚拟旅游、机器人和自动驾驶等应用中获得了极大的关注。因此,宽基线全景视图合成已经成为一项至关重要的任务,其中高分辨率、快速推理和存储效率是必不可少的。然而,现有方法通常受限于较低的分辨率(512×1024)是由于苛刻的存储器和计算要求。在本文中,我们介绍了PanSplat,这是一种通用的前馈方法,可有效支持高达4K (2048)的分辨率×4096).我们的方法以具有斐波纳契点阵排列的定制球形3D高斯金字塔为特征,增强了图像质量,同时减少了信息冗余。为了适应高分辨率的需求,我们提出了一种流水线,该流水线将分层球形成本体和高斯头部与局部操作相集成,实现了两步延迟反向传播,以便在单个A100 GPU上进行内存高效的训练。实验表明,PanSplat在合成和真实数据集上都实现了一流的结果,具有卓越的效率和图像质量。

2. 引言

随着360°相机和沉浸式技术的兴起,虚拟现实(VR)和虚拟漫游对丰富视觉内容的需求急剧增加。全景光场系统通过使用户能够在指定的虚拟空间内从一系列任意视角探索环境,为实现逼真、沉浸式的体验提供了引人注目的解决方案。360°相机的最新进展简化了沉浸式内容的创作,推动了诸如街景(Google Maps、Apple Maps)和虚拟漫游(Matterport、Theasys)等应用的发展,其中,从宽基线全景图中合成新视图对于实现位置间的平滑过渡至关重要。

尽管当前方法已广泛探索了宽基线全景图视图合成,但它们往往难以在计算效率、内存消耗、图像质量和分辨率之间取得平衡。传统方法依赖于显式3D场景表示,如多平面图像(MPI)或网格,这些表示方法虽然具有潜在的高分辨率可扩展性,但由于表达能力有限,往往导致图像质量较低。相比之下,基于神经辐射场(NeRF)的方法能够交付高质量结果,但计算量大且内存密集,使其不太适合高分辨率全景图。大多数现有方法的分辨率上限为512×1024,远低于VR应用中通常需要以实现真正沉浸式体验的4K分辨率(2048×4096)。

3D高斯溅射(3DGS)的最新趋势在合成新视图方面取得了显著成果,标志着图像质量和计算效率的重大进步。通过将场景表示为高斯基元集合,3DGS使用光栅化而非NeRF的体积采样来实现高质量、高效的渲染,同时还支持用于训练的可微分渲染。后续工作通过引入前馈网络来直接从输入图像预测高斯基元,将其扩展到稀疏视图输入,进一步推动了3DGS的边界。尽管取得了这些进展,但由于两大主要挑战,现有的3DGS方法并不直接适用于全景图:1)全景图的独特球形几何结构,这与像素对齐的高斯基元相冲突,导致在两极附近出现重叠和冗余的高斯基元;2)VR应用对高分辨率的需求,使得当前方法(例如MVSplat)由于内存限制而难以高效扩展。推荐课程:国内首个面向具身智能方向的理论与实战课程。

在本工作中,我们提出了PanSplat,这是一种针对4K分辨率输入进行优化的前馈方法,生成专门为全景格式定制的3D高斯表示,以从宽基线全景图中合成4K新视图(示例见图1)。为了解决第一个挑战,我们引入了3D高斯基元的斐波那契晶格排列(见图2),通过在球体上均匀分布它们来显著减少所需的高斯基元数量。另一方面,为了提高渲染质量,我们实现了3D高斯金字塔,它在多个尺度上表示场景,捕捉不同层次的精细细节。为了解决第二个挑战,我们利用基于Transformer网络的分层球形代价体积来估计高分辨率3D几何体,同时提高效率。然后,我们设计了具有局部操作的高斯头来预测高斯参数,实现了两步延迟反向传播,从而在4K分辨率下实现内存高效的训练。此外,我们还引入了一种延迟混合技术,该技术减少了由于移动物体和深度不一致导致的未对齐高斯基元所产生的伪影,提高了真实场景中的渲染质量。

图片

3. 效果展示

我们的PanSplat可以从两个4K(2048x4096)全景生成新颖的视图。我们基于渲染的Matterport3D进行训练。数据分辨率为4K(左),只需在360Loc上进行一些微调,即可泛化为4K现实世界数据(右)。

图片

4. 主要贡献

我们的主要贡献可以概括如下:

• 我们提出了PanSplat,这是一种前馈方法,它高效地生成高质量的新视图,使用专为全景格式定制的球形3D高斯金字塔。

• 我们设计了一条流水线,其中包括具有局部操作的分层球形代价体积和高斯头,实现了两步延迟反向传播,能够高效地扩展到更高分辨率。

• 我们证明了PanSplat在合成和真实世界数据集上均实现了最先进的结果,图像质量优异,并且与最优方法相比,推理速度提高了多达70倍。通过支持4K分辨率,PanSplat成为沉浸式VR应用的有前途的解决方案。

5. 方法

PanSplat是一个前馈模型,如图3所示,它能够高效地从两个给定的宽基线全景图中合成高质量的新视图。我们引入了专门针对全景图像的球形3D高斯金字塔,并将其与分层球形代价体积和高斯头相结合,以实现可扩展到4K分辨率的高分辨率输出,适用于现实世界的应用。

图片

6. 实验结果

图片图片

7. 总结

本文提出了PanSplat,这是一种新颖的可泛化的、前馈方法,用于从宽基线全景合成新视图。为了有效地支持4K分辨率(2048x4096)以用于沉浸式VR应用,我们引入了一个流水线,可以实现两步延迟反向传播。此外,我们提出了一种球面3D高斯金字塔,采用悲波那契格点排列以适应全景格式,以提高渲染质量和效率。广泛的实验证明了PanSplat在图像质量和分辨率方面优于现有技术。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

相关资讯

文生图 AI 巨头 Stability AI 被曝欠下近 1 亿美元,正与投资者洽谈融资事宜

综合路透社、The Information 消息,被视为文生图 AI 领域“巨头”之一的英国人工智能初创公司 Stability AI 发言人表示,该公司正与一批投资者洽谈大额股权融资事宜,以为当前资金短缺的 Stability AI 注入新的资金。该发言人表示,Stability AI 正与一家“世界知名的”技术投资集团进行独家合作。报道称,Stability AI 公司第一季度的收入不到 500 万美元(IT之家备注:当前约 3610 万元人民币),亏损超过 3000 万美元(当前约 2.17 亿元人民币),目

北航 | 第一个多功能即插即用适配器MV-Adapter:轻松实现多视图一致图像生成。

北航提出了第一个多功能的即插即用适配器MV-Adapter。 可以在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。 MV-Adapter 在 SDXL 上实现了高达768分辨率的多视图图像生成,并展示了出色的适应性和多功能性。

中科院图协作学习模型,从空间分辨转录组学数据中阐明肿瘤异质性

编辑 | 萝卜皮空间解析转录组学 (SRT) 技术使研究人员能够获得对组织结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特征的计算开发严重阻碍了组织异质性的阐明。在这里,中国科学院的研究团队提出了 stMVC,这是一种多视图图协作学习模型,它在通过注意力分析 SRT 数据时集成了组织学、基因表达、空间位置和生物学背景。具体来说,采用半监督图注意力自动编码器的 stMVC 分别学习组织学相似性图或空间位置图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。st