专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面 & 个人理解UC Berkeley最新的工作，提出了DeSiRe GS。全新自监督高斯飞溅表示，可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。

本文经自动驾驶之心公众号授权转载，转载请联系出处。

写在前面 & 个人理解

UC Berkeley最新的工作，提出了DeSiRe GS。全新自监督高斯飞溅表示，可以在复杂的驾驶场景中实现有效的静态-动态分解和高保真表面重建。我们的方法采用动态街道高斯的两阶段优化流水线。在第一阶段，由于3DGS只能重建动态环境中的静态区域，因此首先提取2D运动目标mask。然后这些提取的2D运动先验以可微的方式映射到高斯空间，在第二阶段利用动态高斯的有效公式。结合引入的几何正则化，我们的方法能够解决自动驾驶中数据稀疏引起的过拟合问题，重建与物体表面对齐而不是漂浮在空中的物理上合理的高斯分布。此外，我们引入了时间跨视图一致性，以确保跨时间和视点的一致性，从而实现高质量的表面重建。综合实验证明了DeSiRe GS的效率和有效性，超越了先前的自监督技术，实现了与依赖外部3D边界框标注的方法相当的准确性。

开源链接：https://github.com/chengweialan/DeSiRe-GS

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

总结来说，本文的主要贡献如下：

本文基于3DGS无法成功建模动态区域的简单观察，从外观差异中轻松提取运动信息。
然后以可微的方式使用time-varying高斯将提取的局部帧中的2D运动先验提取到全局高斯空间中。
引入了有效的3D正则化和时间交叉视图一致性，以生成物理上合理的高斯球，进一步增强高质量的分解和重建。

DeSiRe-GS方法详解

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

如图2所示，训练过程分为两个阶段。我们首先通过计算渲染图像和GT图像之间的特征差来提取2D运动mask。在第二阶段，我们使用PVG将2D运动信息提取到高斯空间中，从而能够以可微的方式纠正每个高斯的不准确属性。

Dynamic Mask Extraction (stage I)

在第一阶段，我们观察到3D高斯散斑（3DGS）在重建静态元素方面表现良好，例如驾驶场景中停放的汽车和建筑物。然而它很难准确地重建动态区域，因为原始的3DGS没有包含时间信息。如图2（阶段1）所示，这种限制会导致渲染图像中出现重影状浮点等伪影。为了解决这个问题，我们利用静态和动态区域之间的显著差异，开发了一种有效的方法来提取编码运动信息的分割mask。

最初，采用预训练的基础模型从渲染图像和用于监督的GT图像中提取特征。设F表示从渲染图像I中提取的特征，F表示从GT图像I中抽取的特征。为了区分动态和静态区域，我们计算相应特征之间的每像素相异度D。相异度度量D对于类似特征接近0，表示静态区域，对于不同特征接近1，对应于动态区域。

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

当预训练模型被冻结时，计算出的相异度得分不涉及任何可学习的参数。我们提出了一种多层感知器（MLP）解码器来预测动态度δ，而不是对D应用简单的阈值来生成运动分割mask。该解码器利用提取的特征，其中包含丰富的语义信息，同时采用相异性得分来指导和优化解码器的学习过程。

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

通过采用等式7中定义的损失函数，解码器被优化以预测与动态区域对应的D较高的区域中的较低值，从而最小化损失。然后，我们可以获得二进制掩码编码运动信息（ε是固定阈值）：

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

在训练过程中，图像渲染和mask预测的联合优化是相辅相成的。通过在监控过程中排除动态区域，渲染图像和GT图像之间的差异变得更加明显，从而有助于提取运动蒙版。

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

Static Dynamic Decomposition (stage II)

虽然第一阶段提供了有效的动态mask，但这些mask仅限于图像空间而不是3D高斯空间，并且依赖于GT图像。这种依赖性限制了它们在新型视图合成中的适用性，在这种情况下，监督图像可能不可用。

为了将2D运动信息从第一阶段桥接到3D高斯空间，我们采用了PVG，一种动态场景的统一表示（第3节）。然而，PVG对图像和稀疏深度图监督的依赖带来了挑战，因为很难从间接监督信号中学习到准确的运动模式。因此，如图2（第2阶段）所示，渲染的速度图V通常包含噪声异常值。例如，速度应为零的道路和建筑物等静态区域没有得到有效处理。这导致场景分解不令人满意，PVG经常对预期速度为零的区域进行错误分类。

为了缓解这个问题并生成更精确的高斯表示，我们结合了从第一阶段获得的分割mask来正则化2D速度图V，该速度图V是从3D空间中的高斯图渲染的。

最小化Lv会惩罚速度应为零的区域，有效地消除了原始PVG产生的噪声异常值。该过程将运动信息从2D局部帧传播到全局高斯空间。对于每个高斯分布，通过应用一个简单的阈值，可以区分动态和静态高斯分布。与PVG和S3Gaussian相比，这种方法实现了更优的自监督分解，而不需要额外的3D标注，如之前方法中使用的边界框。

Surface Reconstruction

Geometric Regularization

Flattening 3D高斯：受2D高斯散斑（2DGS）的启发，我们的目标是将3D椭球体压平成2D圆盘，使优化的高斯更好地符合物体表面，并实现高质量的表面重建。3DGS的尺度s=（s1，s2，s3）定义了椭球体沿三个正交轴的大小。最小化沿最短轴的比例有效地将3D椭球体转换为2D磁盘。缩放正则化损失为：

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）

法线推导：曲面法线对于曲面重建至关重要。以前的方法通过向每个高斯函数附加一个法向量来合并法线，然后使用该法向量来渲染法线图N。使用地面真值法线图来监督高斯法线的优化。然而，这些方法往往无法实现精确的表面重建，因为它们忽略了尺度和法线之间的内在关系。我们不附加单独的法向量，而是直接从尺度向量s中推导出法向量n。法向量方向自然与对应于最小尺度分量的轴对齐，因为高斯在展平正则化后形状像圆盘。

专为自动驾驶而生！DeSiRe-GS：彻底摒弃3D框，动静态重建完美解耦（UC Berkeley最新）