AIxiv专栏是呆板之心发布学术、技术内容的栏目。过去数年,呆板之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,无效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
在呆板学习和计算机视觉中,让呆板准确地识别和理解手和物体之间的交互作为,那是相当费劲。
要么拿个杯子半天抓不到杯把:
要么打开一个盒子手部跟触电了似的:
抑或是各种稀奇古怪的手部「畸变」:
这都是因为手物交互作为中噪声干扰,比如手和物体的遮挡等,导致呆板难以获得准确的信息。那么,如何解决这些「讨厌」的噪声呢?
近日,清华大学、上海人工智能实验室和上海期智研究院发布了一篇名为《 GeneOH Diffusion:Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion》的论文,提出了一种新的去噪办法 ——GeneOH Diffusion。该研究已被ICLR 2024接收。
论文:
https://arxiv.org/abs/2402.14810
代码地址:
https://github.com/Meowuu7/GeneOH-Diffusion
项目网站:
https://meowuu7.github.io/GeneOH-Diffusion/
YouTube 视频:
Hugging Face Demo:
https://huggingface.co/spaces/xymeow7/gene-hoi-denoising
GeneOH Diffusion 主要用于改善手和物体交互(Hand-Object Interaction, HOI)过程中的噪声问题。简单来说,就是当呆板或者计算机视觉系统尝试追踪和理解手和物体之间的交互时,经常会因为各种原因(比如遮挡、光线变化等)出现缺点。这篇论文提出的技术就是用来减少这些缺点,使得呆板能够更准确地理解和模拟手与物体之间的交互。
研究动机
干净的手物交互数据在很多下游任务,如 AR、VR 和 Robotics 中都有广阔的应用前景,但如何以一种可扩展的方式获取天然真正的手物交互数据是一个极具挑战性的问题。研究者无论是采用数据采集的策略,安排算法从其他数据模态中获得手物交互序列,还是借助生成模型的强大生成才能,所得到的数据都不可避免地被各种各样无法预测的噪声干扰(图 1)。这些噪声可能来源于采集设备无限的精度或者相关算法的缺点。
一种能够从含有噪声的数据中恢复出清晰、真正手物交互序列的办法,构成了连接低成本手物交互数据源和高质、实用数据之间的桥梁。正是在这一过程中,手物交互去噪模型的独特价值和重要性得以凸显。
图 1:手物交互序列中多样且庞杂的噪声类型
从含有噪声的交互序列中恢复出真正的数据,这是一个本质上困难的重构问题。在实际的去噪应用场景中,由于输出数据的物体、交互作为和噪声特点都具有不可预测性,同时去噪模型的训练数据又受到限制,因此模型的泛化才能变得尤为关键,同时也是安排去噪模型时最具挑战性的地方。
尽管交互序列去噪问题并非一个全新的研究领域,但在以往的工作中,无论是采用基于规则的办法还是数据驱动的办法,「如何在训练数据无限的情况下,构建一个具有高度泛化才能的模型」这一问题并未得到充分的重视和深入研究。而正是在这样的背景下,GeneOH Diffusion(如图 2 所示)旨在探索和实现可泛化的手物交互去噪技术。
图 2:通过在无限的数据上进行训练,GeneOH Diffusion 可以很好地泛化到新颖的带有庞杂噪声特点的交互序列上(图 a),并可以从一段输出中恢复出多样且天然的交互序列(图 b),且是一个实用的工具(图 c)。
GeneOH Diffusion:可泛化的手物交互序列去噪办法
GeneOH Diffusion 重新思考了安排数据驱动的去噪模型的两个关键问题 ——「什么是易于泛化的手物交互序列表示办法」和 「什么是对噪声特点不敏感,且易于在不同类型噪声数据上泛化的去噪办法」,并通过两个关键性的安排来增强去噪模型的泛化性。
首先,为了无效增加模型对新颖物体和手物交互作为的可泛化性,GeneOH Diffusion 通过在局部接触区域参数化交互信息,来对齐各种各样的手物交互序列。
具体来讲,GeneOH Diffusion 安排了一套以广义接触点为中心的、包罗手物时空交互信息的序列表征,名为 GeneOH。GeneOH 包括 位姿标准化后的手物轨迹、以广义接触点为中心的手物空间关系表征、以及以广义接触点为中心的手物时间关系表征。(图 3)
图 3:可泛化的手物交互序列表征 GeneOH
为了增加去噪模型泛化到新噪声分布上的才能,GeneOH Diffusion 摒弃了前人确定性映射的去噪办法,提出使用集中模型刻画手物交互信息的分布,并通过先集中 — 后去噪的方式,极大地提高了模型对具有没见过的庞杂噪声特点的数据的泛化才能。
具体而言,GeneOH Diffusion 先将输出的有噪声的数据通过前向集中的方式对齐到一个统一的噪声空间,之后对集中的数据进行去噪。最后,为了去除庞杂多样的手物交互序列中的噪声,GeneOH Diffusion 安排了一种无效的层级式去噪办法,通过对不天然的手型、有噪声的手物空间关系和有噪声的手物时间关系进行逐步去噪,最终恢复出一段天然真正的手物交互序列(图 4)。
图 4:层级式去噪和易于在不同噪声类型之间泛化的先集中 – 后去噪的去噪范式
可泛化去噪结果展示
GeneOH Diffusion 仅在无限的 GRAB 数据集上进行训练,尽管它只接触过无限的交互序列和简单的集中模型中的高斯噪声,但它仍然能够无效地泛化到新的交互序列上。这些新序列不仅包罗了未见过的物体,还涵盖了创新的交互作为,并且带有庞杂的、真正世界中的噪声特点(见图 5)
图 5:在 GRAB,GRAB(Beta),HOI4D 和 ARCTIC 上的去噪结果部分展示
最令人惊讶的是,GeneOH Diffusion 仅仅在包罗刚性物体交互数据上进行了训练,但它依然能够近乎完美地复原出一段天然真正的人打开剪刀的序列(见图 6)。即便输出数据未能提供无效的接触信息,并且包罗了由视觉算法错误导致的异常噪声,经过 GeneOH Diffusion 去噪处理后的序列仍然展现出了合理的接触点、天然的手部运动轨迹,以及手物运动一致的操控作为。
图 6:泛化到非常困难的、具有庞杂的真正的噪声特点序列上的动画示例
基于生成模型,GeneOH Diffusion 具备随机去噪的才能,这与去噪过程中所面临的一对多的问题特质相吻合(见图 7)。
图 7:随机去噪结果展示
同时 GeneOH Diffusion 具有广阔的应用价值。它可以修正从视频中预测的手物交互序列,去除运动重定向所产生的噪声,并可以提高生成模型所生成的数据的质量(图 8)。
图 8:应用场景