4090玩转大场景几何重建，RGB渲染和几何精度达SOTA｜上海AI Lab&西工大新研究

作者：量子位

2025-04-14 08:40

仅用4090就能实现大规模城市场景重建！高效几何重建新架构CityGS-X来了，通过一种新型并行化混合分层三维表征架构（PH²-3D）的可扩展系统，突破了传统三维重建在算力消耗和几何精度上的限制。算力瓶颈无处不在，当前3D高斯泼溅技术虽取得显著进展，却仍面临三大核心挑战：处理速度缓慢、计算成本高昂、几何精度有限。

仅用4090就能实现大规模城市场景重建！

高效几何重建新架构CityGS-X来了，通过一种新型并行化混合分层三维表征架构（PH²-3D）的可扩展系统，突破了传统三维重建在算力消耗和几何精度上的限制。

算力瓶颈无处不在，当前3D高斯泼溅技术虽取得显著进展，却仍面临三大核心挑战：处理速度缓慢、计算成本高昂、几何精度有限。

来自上海AI Lab和西工大的研究团队认为，这些问题的根源在于其非结构化设计本质与并行化机制的缺失。

这就引出一个关键命题：能否构建一个兼具高效性、扩展性和精确性的新一代几何重建框架？

由此，团队提出了CityGS-X，研究的主要贡献在于：

提出并行化混合层次三维表征（PH²-3D）的可扩展架构，摒弃了传统大场景分块算法造成的训练冗余，相比现有的SOTA几何重建方法，训练速度提升了一倍。
提出多任务批渲染框架下的动态分配锚点的并行机制，在训练阶段以及渲染阶段可以利用多张低端卡平替以及超越目前单张高端显卡，对于5000+图的大场景（Matrixcity），只需4卡4090即可实现。
提出在模态批渲染框架下的渐进式RGB-深度-法向联合训练方法，在RGB渲染和几何精度上都达到同类任务中的SOTA。

以下是更多细节。

CityGS-X的构建

CityGS-X提出基于并行化混合层次三维表征（PH²-3D）的可扩展架构，摒弃传统繁琐的合并-分区流程，首创批处理级多任务渲染机制；

开发动态多细节层次体素分配策略，实现显存占用与计算效率的平衡；

设计渐进式RGB-深度-法线联合训练方案，通过多视角约束与深度先验的协同优化，显著提升几何一致性。

PH²-3D的设计

团队提出一种基于分布式数据并行（DDP）范式的可扩展三维表示方法，采用K层细节层次（LoDs）的混合结构来表征大规模场景，其中每层级Xk Xk,1 Xk,v包含不同分辨率的体素集合。

体素坐标通过公式计算生成：

其中δ为初始体素尺寸，P为SfM得到的稀疏点云。为实现多GPU负载均衡，团队设计空间平均采样策略将体素均匀分配到M个GPU上，满足分配规则：

每个体素Xk,v(m)关联可学习嵌入Fv(m)∈R、缩放因子lv(m)∈R、空间位置xv(m)和n个偏移量Ov(m)∈Rn×3。通过多GPU共享的高斯解码器de(·)实现并行属性预测：

其中和分别表示视角相对距离和观察方向。

该设计通过显式存储高斯属性和梯度同步机制，显著降低显存消耗和GPU间通信开销。

批处理级多任务渲染机制

团队采用批处理级多任务渲染机制，首先将批量渲染图像分割为16×16像素的图块，并基于Grendal-GS的自适应负载均衡策略分配到不同GPU。

在每块渲染任务中，提出视角相关高斯迁移策略：并行搜索所有GPU上各LoD层级的相交体素，预测对应高斯属性（如公式所示），并迁移至任务分配GPU。

随后各区块遵循经典基于瓦片的光栅化并行渲染：

其中N为迁移高斯点数量，π(·)为迁移高斯重排序函数。

同时基于PGSR策略生成当前视角法线图：

RcT表示相机到世界坐标的旋转矩阵，nπ(i)为第π(i)个重排序高斯的法线。

此外采用无偏深度渲染技术计算深度图，将深度视为光线与高斯平面的交点：

D表示通过alpha混合的距离图，dπ(i)为第π(i)个重排序高斯的距离，P为齐次坐标表示，K-1为相机内参逆矩阵。

传统方法如MVGS受限于单GPU显存需梯度累积，而多GPU并行机制可实现灵活扩展训练批次。

批处理级连续性渐进训练

作者提出三阶段渐进式训练策略：

阶段一：批处理级RGB训练

研究表明合适的批尺寸能提升神经网络性能。通过批量渲染多视角图像，作者将单视角RGB损失扩展为批处理级损失：

其中B为预设批尺寸,和分别为渲染图像和真实图像。

该策略使高斯解码器能跨多视角更新梯度，有效缓解视角过拟合问题。

阶段二：增强深度先验训练

基于最新单目深度估计器具有平滑连续的表面预测特性，作者提出改进方案：

1）通过最小二乘法恢复伪深度的真实尺度

2）计算目标视图与邻近视图的重投影误差E

3）采用阈值τd过滤不一致区域，得到增强伪深度

批处理级深度正则化损失定义为：

阶段三：批处理级几何训练

为修正小物体深度误差，作者构建图像对：{(,),...,(,)}对每个图像对，7×7像素块中心点P2n，通过单应矩阵，H2n-1,2n映射到配对图像最小化块间归一化相关（NCC）误差，

其中sg[·]表示梯度截断，NCC(·)表示归一化互相关。

实验结果

以下是与主流方法的渲染指标对比（本文方法均使用4卡4090）：

深度图可视化结果：

对比试验中，团队在RGB渲染、深度渲染与其它方法对比，实验表明CityGS-X在RGB渲染最优的情况下，深度图也最准确，具有更少的浮点以及地面的空洞。

同时对于法线图渲染，CityGS-X也展现出更准确的细节。

法线图可视化:

与目前的SOTA方法相比，CityGS-X在整体的mesh可视化上都有显著提升。

texture和mesh可视化对比：

时间对比实验结果：

F1分数对比实验结果：

在MatriCity数据集上进行定量对比，CityGS-X在重建精度上有显著提升，同时在训练速度上也有明显提升。

论文链接：https://arxiv.org/pdf/2503.23044

项目主页：https://lifuguan.github.io/CityGS-X/

项目代码：https://github.com/gyy456/CityGS-X

相关标签：

AI 模型算力

相关资讯

曝DeepSeek让Llama4未发布已落后！小扎坐不住了：2025预算4000亿起步，年底AI算力将达130万卡

曝DeepSeek让Llama4未发布已落后！小扎坐不住了：2025预算4000亿起步，年底AI算力将达130万卡

Meta这次真的坐不住了，计划在AI上继续加码！匿名员工爆料，黑马DeepSeek的出现，让Llama 4还未发布就已经落后，Meta慌了。就在这一消息沸沸扬扬时，小扎放出消息，2025年继续扩大AI投资。

1/26/2025 9:00:00 AM

量子位

全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力

全球AI算力报告出炉，LLM最爱A100！谷歌坐拥超100万H100等效算力

AI的物质基础是机器学习硬件，例如图形处理单元（GPU）和张量处理单元（TPU）。据不完全统计，目前全球超过140款AI加速器，用于开发和部署深度学习时代的机器学习模型。 Epoch AI带来了全球算力的估计报告，利用公开信息估计了全球机器学习硬件的现状和趋势。

2/17/2025 9:06:00 AM

新智元

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

小模型也能玩转RAG！性能仅降1%，存储省75%，边缘设备轻松跑

检索增强生成（RAG）虽好，但一直面临着资源消耗大、部署复杂等技术壁垒。近日，香港大学黄超教授团队提出MiniRAG，成功将RAG技术的应用门槛降至1.5B参数规模，实现了算力需求的大幅降低。这一突破性成果不仅为边缘计算设备注入新活力，更开启了基于小模型轻量级RAG的探索。

1/23/2025 5:00:00 PM

量子位

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部