AI在线 AI在线

MegaSynth:用70万合成数据突破3D场景重建瓶颈,PSNR提升1.8dB!

作者:萍哥学AI
2025-03-06 12:15
一眼概览MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。 核心问题当前 3D 场景重建方法受限于:数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。

1. 一眼概览

MegaSynth 提出了一种基于非语义合成数据的大规模 3D 场景重建方法,生成 70 万个合成场景数据集,训练大型重建模型(LRMs),相比使用真实数据训练的模型,PSNR 提升 1.2~1.8 dB,显著增强 3D 场景重建的广覆盖能力。

2. 核心问题

当前 3D 场景重建方法受限于:

  • 数据规模受限:现有真实数据集 DL3DV 仅 10K 场景,远小于物体级数据集(如 Objaverse 80 万个实例)。
  • 数据分布不理想:现有数据集多为人工采集,难以确保场景多样性,摄像机运动范围受限,且可能包含噪声和不精确标注。
  • 计算成本高昂:现有优化方法(如 3DGS)计算成本高,推理速度慢,难以应用于大规模场景。

MegaSynth 通过合成数据突破数据瓶颈,使 3D 场景重建更高效、精准,并能泛化至真实数据。

3. 技术亮点

大规模非语义数据生成:提出 MegaSynth 数据集,通过程序化生成 70 万个场景,无需建模语义信息(如物体属性和布局),避免语义复杂性带来的计算开销。

合成数据+真实数据混合训练:通过 MegaSynth 预训练 + 真实数据微调,提高模型泛化能力,实现 1.2~1.8 dB PSNR 提升

新型 LRM 训练策略:基于 GS-LRM 和 Long-LRM 两种模型,利用合成数据进行高效重建,使模型性能与仅用真实数据训练的模型相当。

4. 方法框架图片

MegaSynth 通过以下步骤完成 3D 场景重建:

1)合成数据生成

• 场景布局:生成 3D 立方体空间,随机分布几何体(如立方体、球体、圆柱等)。

• 几何和纹理生成:随机组合几何形状并添加高度场扰动。

• 光照建模:使用环境光、太阳光和发光物体生成多样化光照条件。

2)数据训练策略

    • 训练 GS-LRM 和 Long-LRM,分别基于 Transformer 和 Mamba 架构。

    • 混合训练:先用 MegaSynth 预训练,再用 DL3DV 真实数据微调,以增强泛化能力。

   3) 损失优化

      • 渲染损失(Limg):基于 MSE 误差和感知损失优化 3D 纹理。

      • 几何损失(Lloc):基于合成数据提供的精准几何信息,优化 3D 高斯中心位置,提高几何精度。

5. 实验结果速览

• 数据集

a.训练:MegaSynth(70 万场景)+ DL3DV(7K 场景)

b.测试:DL3DV、Hypersim(高真实感渲染)、MipNeRF360、Tanks & Temples(真实世界数据)

• 关键实验结论

a.训练包含 MegaSynth 数据的模型在 所有测试数据集 上均优于仅用真实数据训练的模型,特别是在 Hypersim 和 MipNeRF360 这样的跨域数据集上提升更明显。

b.LRMs 仅用 MegaSynth 训练,性能接近于仅用真实数据训练的模型,表明 3D 场景重建的本质是低层几何建模,对语义信息的依赖较小。

6. 实用价值与应用

MegaSynth 及其训练方法在多个领域有潜在应用:

• 自动驾驶:提升激光雷达与视觉融合的 3D 场景建模精度。

• 机器人导航:增强环境感知,提高路径规划可靠性。

• 增强现实(AR)与虚拟现实(VR):支持高质量 3D 资产生成和交互式虚拟场景建模。

• 城市建模与测绘:基于大规模图像数据进行高精度 3D 重建,提高城市规划与测绘效率。

7. 开放问题

1)合成数据的泛化性:MegaSynth 在多种数据集上表现良好,但在 超大规模室外场景 或 极端环境光照 下,是否仍能维持高性能?

2)与其他生成式方法的结合:是否可以结合扩散模型或神经辐射场(NeRF),进一步优化数据生成质量?

3) 数据合成策略优化:当前 MegaSynth 采用 非语义建模,如果引入一定的高层语义控制(如物体语义标签),是否能进一步提升泛化能力?

相关标签:

相关资讯

Babylon.js:如何与3D场景中的物体交互?

图片开发棋类游戏,需要实现鼠标控制棋子的功能,使得游戏能够将鼠标在屏幕上的位置准确地映射到棋盘上的对应落子点。 如果开发的是2D游戏的话,实现就比较简单,鼠标屏幕坐标和棋盘都是二维平面。 就像下图围棋所示,可以根据xy坐标表示鼠标的位置,同时围棋落子点的坐标也可以计算得出xy坐标,这样很轻松地就能实现鼠标位置和围棋落子点坐标的映射和距离比较。
11/26/2024 7:40:44 AM
一点鑫得

大规模3D场景2分钟生成,效率提升30倍!中科院发布空间智能新框架

「空间智能」和「世界模型」是最近学术界和产业界非常火热的研究方向,走向虚实结合、模拟世界机理的关键一步,就是创造出一个生动的虚拟世界。 然而,想要打造丰富多样、充满细节,同时具备高度可编辑性和物理真实性的3D虚拟世界,仍然困难重重。 为了解决这些难题,来自中国科学院自动化研究所和北京科技大学的联合团队,首次提出了一种全新的3D场景生成框架SceneX,只需简单的文字描述,就能快速生成高质量的3D虚拟场景。
1/2/2025 12:22:09 PM
新智元

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心