Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

写在前面 & 笔者的个人理解西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。 近期生成 重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。 先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。

写在前面 & 笔者的个人理解

西湖大学和浙大的工作,利用3DGS的统一表征,结合扩散模型打通自动驾驶场景的多模态生成。近期生成+重建的算法越来越多,这说明单重建或者单生成可能都没有办法很好的cover闭环仿真,所以现在的工作尝试两者结合,这块应该也是后面闭环仿真落地的方向。

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

先前采用基于像素的高斯表示的工作已经证明了前馈稀疏视图重建的有效性。然而,这种表示需要交叉视图重叠才能进行精确的深度估计,并且受到对象遮挡和截头体截断的挑战。因此,这些方法需要以场景为中心的数据采集来保持交叉视图重叠和完整的场景可见性,以规避遮挡和截断,这限制了它们在以场景为核心的重建中的适用性。相比之下,在自动驾驶场景中,一种更实用的范式是以自车为中心的重建,其特征是最小的交叉视图重叠和频繁的遮挡和截断。因此,基于像素的表示的局限性阻碍了先前工作在这项任务中的实用性。鉴于此,本文对不同的表示方法进行了深入分析,并引入了具有定制网络设计的泛高斯表示方法,以补充其优点并减轻其缺点。实验表明,在以自车为中心的重建中,Omni-Scene明显优于最先进的像素Splat和MVSplat方法,并在以场景为中心的重构中取得了与先前工作相当的性能。此外Omni-Scene用扩散模型扩展了我们的方法,开创了3D驾驶场景的前馈多模态生成。

  • 论文链接:https://arxiv.org/abs/2412.06273

总结来说,本文的主要贡献有以下几个方面:

  • 我们提出了Omni Scene,这是一种全高斯表示,具有量身定制的网络设计,用于自我中心重建,利用了基于像素和体积的表示,同时消除了它们的缺点。
  • 将一种新的以自我为中心的重建任务引入到驾驶数据集(即nuScenes)中,目的是在仅给出单帧周围图像的情况下进行场景级3D重建和新颖的视图合成。我们希望这能促进该领域的进一步研究。
  • 实验表明,我们的方法在自我中心任务上明显优于最先进的前馈重建方法,包括pixelSplat和MVSplat。进一步还通过在RealEstate10K数据集上执行以场景为中心的任务的先前工作获得了具有竞争力的性能。
  • 通过将Omni Scene与2D扩散模型集成来展示其生成潜力,开创了一种以前馈方式多模态生成3D驾驶场景的新方法。

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

相关工作回顾

神经重建和渲染:最近利用神经渲染和重建技术的方法可以将场景建模为可学习的3D表示,并通过迭代反向传播实现3D重建和新颖的视图合成。NeRF因其在重建场景中捕捉高频细节的能力而受到认可。然而,在渲染过程中,它需要对每条光线进行密集的查询,尽管随后进行了加速,但这仍然导致了高计算需求,限制了其实时能力。3D高斯散斑(3DGS)通过使用3D高斯显式建模场景并采用高效的基于光栅化的渲染管道来缓解这个问题。尽管3DGS和NeRF及其变体在单场景重建中表现出了卓越的性能,但它们通常需要每个场景的优化和密集的场景捕获,这使得重建过程耗时且不可扩展。与这些工作不同,我们的方法可以在单次前向过程中从稀疏观测中重建3D场景。

隐式3D表示的前馈重建。这一系列工作将隐式3D先验(如NeRF或光场)纳入其网络中,以实现前馈重建。基于NeRF的方法利用具有多视图交叉注意力的Transformer,或使用极线和成本体积等投影3D先验来估计重建的辐射场,这继承了NeRF渲染的昂贵光线查询过程。因此,这些方法在训练和推理阶段都非常耗时。相比之下,基于光场的方法可以通过基于光线到图像的交叉注意力直接回归每条光线的颜色来绕过NeRF渲染,这牺牲了可解释性以提高效率。然而,由于缺乏可解释的3D结构,它们无法重建场景的3D几何形状。

三维高斯前馈重建。最近使用3DGS的方法可以实现可解释性和效率。通常,他们在网络中采用类似于基于NeRF的方法(例如,极线、成本量和多视图交叉注意力)的3D先验,并采用基于像素的高斯表示来预测沿射线的每像素高斯分布以进行重建。然而,这种基于像素的表示依赖于大的交叉视图重叠来预测深度,并且受到对象遮挡和截头锥体截断的影响,因此仅适用于以场景为中心的重建,适用性有限。相比之下,本文主要研究以自我为中心的重建,其特征是最小的交叉视图重叠和频繁出现的对象遮挡和截头体截断。这促使我们研究了一种新的3D表示方法,该方法不过度依赖于交叉视图重叠,同时可以解决基于像素的表示的局限性。

Omni-Scene方法详解

方法的整体框架图如下所示:

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

Volume Builder

体积生成器旨在使用基于体积的高斯模型预测粗略的3D结构。主要的挑战是如何将2D多视图图像特征提升到3D体积空间,而不显式地保持密集的体素。我们使用Triplelane Transformer来解决这个问题。然后,提出了体积解码器来预测体素锚定高斯GV。

Triplane Transformer。由于H×W×Z的立方复杂度,将体积表示为体素并为每个体素编码特征是昂贵的。因此,我们采用三平面将体积分解为三个轴对齐的正交平面HW、ZH和WZ。一些对象级3D重建工作也采用三平面表示来压缩体积。然而,它们要么依赖于三平面和图像之间密集的每像素交叉注意力,要么要求输入图像也与三平面对齐,以进行直接的2D级特征编码。它们都不适合具有更大体积和无约束数据收集的真实场景。

受最近3D感知方法]的启发,我们的三平面变换器利用可变形的交叉注意力,在2D和3D空间之间实现稀疏但有效的空间相关性。这里我们以HW平面的特征编码为例进行说明。如图3(b)所示,我们定义了一组网格形状的可学习嵌入作为transformer的平面查询,其中C表示嵌入通道。然后,对于位于(h,w)处的查询,我们将其扩展为沿Z轴均匀分布的多个3D柱点,并通过将它们投影回输入视图来计算它们在2D空间中的参考点Ref。由于这种透视投影的稀疏性,qh、w将只关注1/2输入视图中最相关的2D特征,以平衡效率和特征表现力。上述操作,即交叉图像可变形注意,在图3(b)中由紫色虚线箭头表示。我们推导如下:

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

考虑到查询柱点可能被遮挡或位于任何输入视图的截头锥体范围之外,我们进一步利用跨平面可变形注意力来丰富这些点的跨平面上下文。特别是,对于查询,我们将其坐标(h,w)投影到HW、ZH和WZ平面上,以获得三组参考点。

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

我们从不同的平面提取上下文信息,从而增强图3(b)中红色虚线箭头所示的特征。推导如下:

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

对所有平面的查询重复这两种交叉注意力,我们可以获得具有丰富语义和空间上下文的三平面特征,而不依赖于交叉视图重叠,这对于之前仅依赖基于像素的高斯表示的方法来说是必要的。

Volume解码器。然后,我们提出了体积解码器来估计体素锚定高斯分布。具体来说,给定一个位于(h,w,z)的体素,我们首先将其坐标投影到三个平面上,通过双线性插值获得平面特征,然后进行平面求和,得出聚合的体素特征。

Pixel Decorator

Pixel Decorator由多视图U-Net和像素解码器组成,分别负责提取跨视图相关特征和预测基于像素的高斯GP。由于GP是在与细粒度图像空间对齐的情况下获得的,因此它可以为粗体素锚定的高斯GV添加细节。此外,由于GP可以不投影到无限距离的位置,因此它可以用距离高斯来补充体积有界GV。

  • 多视图U-Net concat图像特征;
  • 像素解码器对U-Net特征进行上采样。

Volume-Pixel Collaboration

全高斯表示的核心在于基于体积和像素的高斯表示的协作。为此,我们提出了一种双重方法,可以从两个方面进行协作:基于投影的特征融合和深度引导的训练分解。

基于投影的特征融合。我们的Volume Builder预计将在输入视图中遮挡或截断的位置预测高斯分布,这超出了Pixel Decorator的设计目的。因此,为了使Volume Builder知道遮挡或截断发生的位置,我们建议将三平面查询与基于像素的高斯GP的投影特征融合。以HW平面为例,我们首先过滤掉GP中超出H×W×Z体积范围的高斯分布。然后,我们收集GP剩余高斯人的U-Net特征,并将其投影到HW平面上。投影到相同查询位置的特征被平均合并,并在线性层转换后添加到QHW的相应查询中。同样的过程也适用于ZH和WZ平面。我们在实验中证明,这种特征融合促进了GV和GP之间的互补相互作用,从而提高了性能。

Depth-Guided Training Decomposition:为了进一步加强协作,我们提出了一种深度引导训练分解方法,根据基于像素和体积的高斯的不同空间属性来分解我们的训练目标。

整体损失函数如下:

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

实验结果

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

Omni-Scene:Gaussian统一表征下的自动驾驶多模态生成新SOTA!

结论

本文提出了Omni-Scene,这是一种具有Omni高斯表示的方法,可以在基于像素和体积的高斯表示中达到最佳效果,用于自我中心稀疏视图场景重建。采用鼓励体像素协作的设计,我们仅从周围的单帧观测中实现了高保真场景重建。大量实验表明,与以前的方法相比,我们在自我中心重建方面具有优势。此外,我们将2D扩散模型集成到我们的框架中,这使得多模态3D场景生成具有多种应用。

给TA打赏
共{{data.count}}人
人已打赏
理论

2024年AI 编程现在可以做到什么程度?

2024-12-18 9:03:05

理论

干货 | 携程商旅在 Remix 模块预加载中的探索与优化实践

2024-12-18 10:03:30

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索