Diffusion-SS3D:用扩散去噪革新半监督3D检测,伪标签更准,mAP提升6%!

一眼概览SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。 核心问题背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。 此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布。

1. 一眼概览

SemCity 是一种 基于三平面扩散(Triplane Diffusion) 的 3D 语义场景生成模型,能够在 真实户外环境 中进行 场景生成、语义补全、场景扩展(Outpainting)和修补(Inpainting),并在 SemanticKITTI 数据集 上显著提升生成质量。

2. 核心问题

背景问题:当前 3D 扩散模型大多专注于 单个物体 或 室内合成场景,对于 真实户外场景 仍然缺乏研究。此外,户外数据由于传感器局限性(空白区域较多),导致模型难以学习 完整的三维语义分布核心挑战:如何在 稀疏、不完整的真实户外数据 中 生成完整、语义连贯的 3D 场景,并支持 对象添加、移除和扩展应用价值:自动驾驶、智能城市建模、增强现实(AR)、机器人导航等都依赖 高质量 3D 语义场景生成,提高 环境理解能力

3. 技术亮点

1. 三平面扩散(Triplane Diffusion)建模:采用 Triplane 表示 作为代理表示,解决 真实户外场景数据稀疏问题,比 传统体素方法(Voxel-based) 更高效。

2. 三平面编辑(Triplane Manipulation):实现 无缝的对象添加、移除、修改,支持 场景修补(Inpainting)、扩展(Outpainting)和语义补全(SSC Refinement)

3. 高质量户外场景生成:在 SemanticKITTI 数据集上大幅提升场景生成质量,优于当前基于扩散的 3D 生成方法。

4. 方法框架

图片图片

SemCity 采用 三平面扩散模型(Triplane Diffusion),核心流程如下:

1. 三平面编码(Triplane Encoding)

• 采用 Triplane Autoencoder 将 3D 体素场景 转换为 三平面表示(xy、xz、yz)

• 该表示减少了不必要的空白信息,提高 数据表示效率

2. 三平面扩散(Triplane Diffusion)

• 通过 去噪扩散过程(Denoising Diffusion Probabilistic Models, DDPM)学习 三平面数据分布

• 通过 反向扩散 生成 新的三平面,再解码成完整 3D 语义场景

3. 三平面编辑(Triplane Manipulation)

• 场景修补(Inpainting):在 3D 空间中无缝 去除或添加物体,增强 语义一致性

• 场景扩展(Outpainting)向四周扩展场景,可生成 城市级别 的 3D 场景。

• 语义补全(SSC Refinement):优化 语义场景补全,提高 SSC 任务的 IoU 和 mIoU

5. 实验结果速览

图片图片

SemCity 在 真实户外数据 上取得 最佳 3D 语义场景生成性能

• SemanticKITTI(真实数据集)

a.FID 下降 50%(从 112.82 → 56.55),表示生成场景更接近真实数据。

b.KID 下降 67%(从 0.12 → 0.04),生成质量更稳定。

c.mIoU 提升 6.64%,显著改善 语义一致性

• CarlaSC(合成数据集)

• FID 下降 54%(从 87.39 → 40.63),生成质量更高。

• KID 下降 78%,生成稳定性提升。

• SSC 任务提升

• MonoScene + SemCity:mIoU 提升 5.58%(11.50 → 17.08

• OccDepth + SemCity:mIoU 提升 3.95%(12.84 → 16.79

• SCPNet + SemCity:mIoU 提升 0.64%(37.55 → 38.19

• SSA-SC + SemCity:mIoU 提升 1.04%(24.54 → 25.58

6. 实用价值与应用

SemCity 提供了 高效、灵活的真实户外 3D 语义场景生成,适用于多个领域:

• 自动驾驶 🚗:提升 3D 语义理解,帮助 感知系统 处理 不完整的激光雷达数据

• 智能城市建模 🏙️:支持 城市级别 3D 场景生成,用于 数字孪生(Digital Twin) 和 城市规划

• 机器人导航 🤖:提高 机器人在复杂环境中的导航能力,增强 自主感知

• 增强现实(AR/VR) 🎮:在 AR/VR 应用 中创建 更真实的交互式 3D 场景

开放问题

1. SemCity 在极端场景(如夜间或大雾环境)下的生成质量如何?

2. 三平面扩散的语义理解能力能否推广到室内 3D 场景?

3. 如何进一步提升 SemCity 处理细粒度对象(如小型路牌)的能力?

4. 三平面扩散模型是否可以与 NeRF 结合,提升 3D 生成质量?

相关资讯

SD WebUI 中也能用上实时绘画了!支持接入PS/Blender 等设计工具

大家好,这里是和你们一起探索 AI 绘画的花生~ 之前为大家介绍过 AI 绘画工具 Krea,它可以根据手绘的草图实时生成完整的画面,可以让我们更精准地控制图像效果,对电商、产品、游戏概念等设计领域来说非常有帮助。之前为大家推荐过一种在 ComfyUI 中免费实现 AI 实时绘画的方式,今天就再为大家推荐另一种在 Stable Diffusion WebUI 中实现实时绘画的方法。一、插件简介 SD WebUI 的实时绘画功能需要借助一个插件实现,这个插件是上周由 B 站 AI 绘画博主@朱尼酱推出,支持文生图、图

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

Stable Diffusion 3震撼发布,采用Sora同源技术,文字终于不乱码了

Stable Diffusion 3 和 Sora 一样采用了 diffusion transformer 架构。继 OpenAI 的 Sora 连续一周霸屏后,昨晚,生成式 AI 顶级技术公司 Stability AI 也放了一个大招 ——Stable Diffusion 3。该公司表示,这是他们最强大的文生图模型。与之前的版本相比,Stable Diffusion 3 生成的图在质量上实现了很大改进,支持多主题提示,文字书写效果也更好了。以下是一些官方示例:提示:史诗般的动漫作品,一位巫师在夜晚的山顶上向漆黑的