AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本论文的第一作者朱钦峰是西交利物浦大学和利物浦大学联合培养的一年级在读博士,其导师为范磊副教授。他的主要研究方向为语义分割、多模态信息融合、3D视觉、高光谱图像和数据增强。该课题组正在招收24/25级博士生,欢迎邮件咨询。
主页:https://zhuqinfeng1999.github.io/
本文是对发表于模式识别领域顶刊Pattern Recognition 2024的最新综述论文:「Advancements in Point Cloud Data Augmentation for Deep Learning: A Survey 」的解读。
该论文由西交利物浦大学朱钦峰、范磊和翁宁馨完成。
这篇综述首次全面总结了点云数据增强的相关研究工作。
深度学习已成为点云分析任务(如检测、分割和分类)的主流和有效方法之一。为了减少在训练深度学习模型过程中的过拟合,特别是在训练数据量或多样性有限的情况下提高模型性能,数据增强通常是关键。尽管各种点云数据增强方法已在不同的点云处理任务中广泛应用,但目前尚未发布这些方法的系统性综述或讨论。
因此,本文对这些方法进行了调研,将其分类到一个包含基础和特定点云数据增强方法的分类框架中。通过对这些增强方法的全面评估,本文确定了它们的潜力和局限性,为选择合适的增强方法提供了有用的参考。
此外,本文还探讨了未来研究的潜在方向。本调研有助于提供点云数据增强当前研究的全面概览,促进其更广泛的应用和发展。
Free Access: https://authors.elsevier.com/c/1j3TW77nKoLGM
arXiv:https://arxiv.org/pdf/2308.12113
作者主页:https://zhuqinfeng1999.github.io/
图1.点云数据增强方法的分类。
点云数据增强
在深度学习领域,当可用的训练数据集有限时,数据增强常被使用。这涉及执行一系列特定的操作来修改或扩展原始数据,从而增加数据集的数量和多样性。
由于优质的增强数据集有助于提高网络的鲁棒性、增强泛化能力并减少过拟合,因此在训练深度学习网络时,数据增强几乎总是被视为理想的选择。在图像数据增强和文本数据增强领域,已经观察到了全面的发展。
在众多近期发表的关于点云处理任务的研究论文中,研究人员探索了各种增强点云数据的方法。这些方法的广泛范围为研究者在选择合适的方法时带来了挑战。因此,系统地调查这些方法并将它们分类成不同组别具有重要价值。
本文呈现了一个关于点云数据增强方法的全面调查。
基于我们的调查,我们提出了一个这些增强方法的分类体系,如图1所示。
增强方法可以被分为两个主要类别:基础点云增强和特定点云增强,这与图像增强的典型分类方法相似。
基础点云增强指的是那些概念简单且在不同任务和应用环境中具有普适性的方法,这一点通过它们在调查文献中与其他方法的广泛结合使用得到了证明。
特定点云增强则指通常为解决特定挑战或应对特定应用环境而开发的方法。在大多数情况下,特定点云增强在计算上比基础增强更为复杂,这取决于增强方法的实现细节。我们提出的分类体系中的子类别代表了文献中已用于点云数据增强的各种方法的总结,或具有潜力被用于点云数据增强的方法。
该综述的主要贡献如下:
这是第一篇全面调查点云数据增强方法的综述,涵盖了点云数据增强的最新进展。根据增强操作的特质,我们提出了一个点云数据增强方法的分类体系。
本研究总结了各种点云数据增强方法,讨论了它们在典型的点云处理任务(如检测、分割和分类)中的应用,并为未来的潜在研究提供了建议。
基础点云增强
仿射变换涉及到仿射空间的变换,它保留了共线性和距离比例。在图像数据增强中,常用的仿射变换方法包括缩放、平移、旋转、翻转和剪切。同样地,仿射变换也可以应用于点云数据增强。典型的方法包括平移、旋转、翻转和缩放,并且这些方法已被广泛用于生成额外的新训练数据。
这些操作可以应用于整个点云数据集,也可以使用特定策略应用于点云数据中选定的实例(实例指的是诸如图2(a)所示的车辆这样的语义对象),或者应用于选定实例的特定部分。
但是,通过仿射变换增强的数据可能面临信息丢失或语义不合理的问题。这些仿射变换的具体操作及其讨论详见论文。
图2.通过仿射变换增强点云数据的示例:(a)原始点云数据,(b)平移车辆,(c)旋转车辆,(d)缩放车辆,(e)翻转场景。
丢弃增强是指丢弃点云数据中的一些数据点,如图3所示。去除点的选择是由具体策略决定的。丢弃的点可以是整个点云数据的一部分,也可以是场景中随机选择的点。丢弃增强有助于深度学习模型对表示遮挡或部分可见场景的缺失或不完整数据变得更加鲁棒。
它还可以防止深度学习模型过于依赖训练数据集中的特定数据点。然而,丢失过多或关键的点云信息可能会导致训练数据中对现实世界对象的不真实表示,并影响深度学习模型的训练。基于丢弃增强的各种方法和讨论详见论文。
图3.通过丢弃增强的点增强示例:(a)原始点云数据,(b)随机丢弃的增强点云,(c)丢弃部分的增强点云。
抖动是指对点云中单个点的位置施加微小的扰动或噪声,如图4所示。基于抖动增强的各种方法和讨论详见论文。
图4.抖动增强示例:(a)原始点云数据,(b)抖动增强的点云数据。
在场景级的点云数据集中,例如户外自动驾驶场景,标注的实例通常是有限的。在这种情况下,GT-sampling成为一种简单而有效的数据增强方法。
GT-sampling是指将带有标签的实例添加到训练数据集中的操作,如图5所示,标记的GT实例来自同一训练数据集或其他数据集。GT-sampling通常适用于场景级点云数据集,而通常不考虑实例级点云数据集,如ShapeNet。基于GT-sampling增强的各种方法和讨论详见论文。
图5.(a)语义合理的GT-sampling,添加的车辆在红框中。(b) 语义不合理的GT-sampling,一辆车在建筑物墙体内,另一辆在树木中。
除此以外,本文还介绍了应用于基础点云数据增强方法的策略,如Patch-based策略,和自动优化策略(见图6)。本文对典型的基础点云增强方法进行了汇总,如表1所示。
图6.自动优化的常见过程。
表1.代表性基础点云增强方法。
特定点云增强
特定点云增强方法通常旨在解决特定的挑战或应用场景。特定点云增强包括:Mixup增强,域增强,对抗性变形增强,上采样增强,补全增强,生成增强,多模态增强和其他。
这些特定增强方法的具体定义以及讨论详见文中。表2概述了具有代表性的特定增强方法的发展,提供了各种信息。
表2.代表性特定点云增强方法。
需要注意的是,目前一些对抗性变形、上采样、补全和生成技术并没有直接应用到点云数据增强中,如表3所示。为了对特定方法进行全面的分类,本文还包括了这些潜在的方法并对其进行了讨论。
表3.潜在的特定点云增强方法。
讨论
论文中对点云数据增强方法的适用任务以及场景进行了详细的讨论,并指出了点云数据增强在一致性学习中的作用,如图7所示。
图7.(a)常规的深度学习训练,将原始数据和增强数据发送到深度学习网络进行训练,得到训练后的模型;(b)一致性学习,通过各种增强方法对输入点云数据进行变换,生成多个增强变量,然后将其馈送到多个网络进行一致性学习,在训练期间做出一致的预测。
表4对进行数据增强前后进行定量评估的文献进行了整理,展示了数据增强的效果。作为比较各种增强方法的另一部分,附录中(详见论文)还概述了使用增强点云数据的下游任务的定量性能,以及这些任务中采用的增强方法。
表4.点云数据增强对于增强模型表现的汇报结果。
未来工作
研究团队针对该领域,指出了进一步研究的九点可能的方向:
研究人员没有充分研究进行点云数据增强的对抗性变形、上采样、补全和生成。鉴于GAN和扩散模型的进步,这些模型可用于生成现实和多样化的点云实例。未来的研究应该在特定点云处理任务的基准数据集上评估这些方法,以评估它们作为增强技术的有效性。
目前,很少有研究针对不同的点云处理任务,使用一致的基线网络和数据集来评估点云数据增强方法的性能。这样的评估将增强我们对不同增强方法性能的理解。因此,未来的研究工作可能侧重于建立新的方法、指标和/或数据集,以评估点云数据增强方法的有效性及其对深度学习模型性能的影响。
当应用于大规模点云数据集时,某些特定增强方法可能会导致计算成本高昂。未来的工作可以集中在开发有效的算法,在计算成本和增强效率之间进行权衡。此外,一些特定点云增强方法相对复杂,难以复现。建议开发即插即用方法,促进其广泛采用。
对于点云数据增强,缺乏普遍接受的基本增强操作组合。因此,未来的工作需要建立一个标准协议,在不牺牲增强效率的情况下,为不同的应用领域、任务和/或数据集选择增强操作。
通过增强生成的多个点云变体会影响一致性学习的有效性。目前,据我们所知,一致性学习中只使用了基本的增强方法。探索特定点云增强方法,如对抗变形和生成增强,为提高一致性学习的有效性提供了一种有趣的方法,被认为是一个有价值的未来研究方向。
目前,将基础点云增强方法与特定点云增强方法相结合的研究有限。这样的组合有可能进一步增加数据增强的多功能性,值得未来的研究。
增强需要真实地模拟点云数据的变化,如物体大小、位置、方向、外观和环境的变化,以确保模拟数据与现实世界的情况保持一致,并保持语义正确。未来的研究可以着眼于标准化各种增强范围,以适应特定的应用场景。
某些应用,如目标检测,可能涉及场景中的动态物体。在动态环境中捕获的点云可能需要考虑物体时间变化的特定增强策略。例如,可以设计运动物体的特定轨迹,这可以通过一组组合增强操作来实现,例如平移,旋转和丢弃。
ViT在简单组合基本操作的情况下,在分割和分类任务上也取得了较强的性能。当与最先进的ViT作为骨干网络集成时,探索增强方法的性能将是有意义的。
参考文献:
[1] Qinfeng Zhu , Lei Fan , Ningxin Weng , Advancements in Point
Cloud Data Augmentation for Deep Learning: A Survey, Pattern Recognition (2024), doi:
https://doi.org/10.1016/j.patcog.2024.110532