北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

写在前面 & 笔者的个人理解开放世界自动驾驶包括域泛化和开放词汇。领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇是指识别训练中没有遇到的各种语义类别的能力。

写在前面 & 笔者的个人理解

开放世界自动驾驶包括域泛化和开放词汇。领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇是指识别训练中没有遇到的各种语义类别的能力。在本文中，我们介绍了OpenAD，这是第一个用于3D目标检测的现实世界开放世界自动驾驶基准。OpenAD建立在与多模态大型语言模型（MLLM）集成的角案例发现和标注管道之上。所提出的管道以统一的格式为五个具有2000个场景的自动驾驶感知数据集标注corner case目标。此外，我们设计评估方法，评估各种2D和3D开放世界和专业模型。此外，我们提出了一种以视觉为中心的3D开放世界目标检测基线，并通过融合通用和专用模型进一步引入了一种集成方法，以解决OpenAD基准现有开放世界方法精度较低的问题。

项目链接：https://github.com/VDIGPKU/OpenAD

总结来说，本文的主要贡献如下：

提出了一个开放世界基准，同时评估目标检测器的领域泛化和开放词汇表能力。据我们所知，这是3D开放世界物体检测的第一个现实世界自动驾驶基准。
设计了一个与MLLM集成的标注管道，用于自动识别极端情况场景，并为异常目标提供语义标注。
提出了一种结合二维开放世界模型的三维开放世界感知基线方法。此外，我们分析了开放世界和专业模式的优缺点，并进一步介绍了一种融合方法来利用这两种优势。

OpenAD概览

北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

由于现有3D感知数据的规模有限，直接训练基于视觉的3D开放世界感知模型具有挑战性。我们利用具有强大泛化能力的现有2D模型来解决这个问题，并为3D开放世界感知提出了一个以视觉为中心的基线。

如图4所示，最初采用任意现有的二维开放世界目标检测方法来获得二维边界框及其相应的语义标签。同时，缓存由2D模型的图像编码器生成的图像特征图。随后，引入了一个结合了多个特征和一些可训练参数的2D到3D Bbox转换器，将2D box转换为3D box。

具体来说，我们使用现有的深度估计模型，如ZoeDepth、DepthAnything和UniDepth，通过2D框获得裁剪图像的深度图。我们还包括一个可选的分支，该分支利用激光雷达点云和线性拟合函数，通过将点云投影到图像上来细化深度图。同时，为了消除2D边界框内不属于前景目标的区域，我们利用Segment Anything Model（SAM）以2D框为提示对目标进行分割，从而产生分割掩码。之后，我们可以使用像素坐标、深度图和相机参数为分割掩模构建伪点云。我们将伪点云投影到特征图和深度图上，并通过插值将特征分配给每个点。然后，我们采用PointNet来提取伪点云的特征fp。同时，2D边界框内的深度图和特征图沿着通道维度连接，其特征fc是通过卷积和全局池化得到的。最后，我们利用MLP来预测具有fp和fc级联特征的目标的3D边界框。

在此基线中，2D到3D Bbox Converter中只有少数参数是可训练的。因此，培训成本低。此外，在训练过程中，每个3D目标都充当此基线的数据点，从而可以直接构建多域数据集训练。

General and Specialized Models Fusion

在实验中，我们发现现有的开放世界方法或通用模型在处理属于常见类别的目标方面不如闭集方法或专用模型，但它们表现出更强的领域泛化能力和处理极端情况的能力。也就是说，现有的通用和专用模型是相辅相成的。因此，我们利用它们的优势，通过结合两种模型的预测结果，提出了一个融合基线。具体来说，我们将两种模型的置信度得分对齐，并使用双阈值（即IoU和语义相似性）执行非最大抑制（NMS），以过滤重复项。

实验结果

北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

结论

在本文中，我们介绍了OpenAD，这是第一个用于3D目标检测的开放世界自动驾驶基准。OpenAD建立在与多模态大型语言模型集成的角案例发现和注释管道之上。该管道以格式对齐五个自动驾驶感知数据集，并为2000个场景注释角案例目标。此外，我们还设计了评估方法，并分析了现有开放世界感知模型和自动驾驶专业模型的优缺点。此外，为了应对训练3D开放世界模型的挑战，我们提出了一种结合2D开放世界模型进行3D开放世界感知的基线方法。此外，我们引入了一种融合基线方法，以利用开放世界模型和专用模型的优势。

通过对OpenAD进行的评估，我们观察到现有的开放世界模型在域内上下文中仍然不如专门的模型，但它们表现出更强的域泛化和开放词汇能力。值得注意的是，某些模型在域内基准测试上的改进是以牺牲其开放世界能力为代价的，而其他模型则不是这样。这种区别不能仅仅通过测试域内基准来揭示。

我们希望OpenAD可以帮助开发超越专业模型的开放世界感知模型，无论是在同一领域还是跨领域，无论是对于可见还是未知的语义类别。

{{userData.name}}已认证

北大王选最新OpenAD！助力自动驾驶迈向开放3D世界

写在前面 & 笔者的个人理解

相关工作回顾

Benchmark for Open-world Object Detection

2D Open-world Object Detection Methods

3D Open-world Object Detection Methods

OpenAD概览

Baseline Methods of OpenAD

Vision-Centric 3D Open-ended Object Detec- tion

General and Specialized Models Fusion

实验结果

结论

Andrej Karpathy 首次公开私人邮件：揭秘Transformer 注意力机制真相

快速学会一个算法，卷积神经网络！！！

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等

关于LLM-as-a-judge范式，终于有综述讲明白了

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则