CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级试验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]论文链接:::M3Act: Learning from Synthetic Human Group Activities引言通过视觉信息鉴别、理解人群的行为是视频监测、交互机器人、自动驾驶

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级试验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

论文链接:https://arxiv.org/abs/2306.16772

项目链接:https://cjerry1243.github.io/M3Act/

论文标题:M3Act: Learning from Synthetic Human Group Activities

引言

通过视觉信息鉴别、理解人群的行为是视频监测、交互机器人、自动驾驶等领域的关键技术之一,但获取大规模的人群行为标注数据成为了相关研究的发展瓶颈。如今,分解数据集正成为一种新兴的,用于替代现实世界数据的要领,但已有研究中的分解数据集主要聚焦于人体姿态与形状的估计。它们往往只提供单个人物的分解动画视频,而这并不适用于人群的视频鉴别使命。

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

在这篇文章中,作家提出了一个适用于多群组人群行为的分解数据生成框架 M3Act。试验显示,该分解数据集可以大大提高下游模型在多人跟踪和集体举止鉴别上的本能,并可以在 DanceTrack 使命上替代超过 62.5% 的真实数据,从而在现实应用场景中降低数据标注成本。此外,该分解数据框架还提出一类新的使命:可控 3D 集体举止生成。该使命旨在利用多种输出(举止类别、集体大小、轨迹、密度、速度和文本输出)直接控制集体举止生成结果。作家严格定义了使命和指标,并提供了有竞争力的基线和结果。

数据生成

 

鉴于 Unity 引擎开发,M3Act 涵盖了多种行为类型的人群数据,提供了高度多样化和逼真的视频图像,以及全面的数据标记。与其他分解数据集相比,M3Act 提供了更为全面的标记数据,包括 2D 和 3D 标记以及细粒度的个人级别和群组级别标签,因此使其成为支持多人和多组研究使命的理想分解数据集生成器。 

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

数据生成器包括 25 个 3D 场景、104 个高动态范围全景图像、5 种光线设置、2200 个人物模型、384 个动画(14 个行动类别)和 6 个集体举止类型。数据生成过程如下所示,首先通过随机化过程确定一个放荡情景内的所有参数,然后根据参数生成带有背景对象、灯光和摄像机的 3D 场景,以及带有动画的人物模型群组。最后从多个视角渲染 RGB 图像并导出标记结果。 

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

为确保放荡数据具有高度多样性,M3Act 为数据生成过程的几乎所有方面提供随机化。这包括场景中的集体数量、每个集体中的人数、集体的位置、集体中人的排列、个体的位置、实例化角色的纹理,以及场景、照明条件、相机位置、角色、集体举止、原子行动和动画片段的选择。每个集体举止也被构建为一个参数化模块。这些参数包括集体中的个体数量和集体举止内允许的特定原子行动。

最终生成的数据集分为两个部分。第一部分 「M3ActRGB」 包含了 6000 次单一但多类型集体举止的放荡和 9000 次多集体多类型放荡,总计 600 万张 RGB 图像和 4800 万个边界框(bounding box)。第二部分 「M3Act3D」 仅包含 3D 数据。它由超过 65000 次 150 帧单一多类型集体举止的放荡组成,总时长达 87.6 小时。据作家所知,M3Act3D 的集体大小和互动复杂度显著高于以前的多人运动数据集,是第一个针对大型集体举止的大规模 3D 数据集。

试验结果

M3Act 的实际效果通过三个核心试验揭示:多人跟踪、集体举止鉴别和可控集体举止生成。

试验一:多人跟踪

研究发现,在既有模型 MOTRv2 [1] 的训练中添加分解数据后,模型在所有 5 个指标上都有显著提高,特别是在 HOTA 指标上的排名中从第 10 位跃至第 2 位。同时,当训练集中 62.5% 的真实数据被分解数据替换之后,模型依然可以取得相似的本能。另外,与其他分解数据源相比,如 BEDLAM 和 GTA-Humans,M3Act 为模型训练提供了更大的本能进步,表明其更适合多人集体举止使命。最后,下表揭示了不同模型在 M3Act 下的训练结果。结果表明,M3Act 在各种模型中都是有效的。

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

试验二:集体举止鉴别

类似地,M3Act 也提高了两个既有集体举止鉴别模型的本能,如下表所示:随着用于预训练的分解数据量的增加,鉴别准确性不断提高。使用 100% 的分解数据时,集体举止鉴别模型 Composer [2] 的准确率在集体级别平均提高了 4.87%,个人级别提高了 7.43%,而另一集体举止鉴别模型 Actor Transformer [3] 在集体级别上看到了 5.59% 准确率的增加,在个人级别上增加了 5.43%。

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

下表揭示了使用不同输出模态在 CAD2 和 Volleyball(VD)上的集体鉴别准确率。试验中的本能增益表明,M3Act 的分解数据可以有效地利于下游使命,并横跨不同模型、输出模态和数据集。

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

试验三:可控 3D 集体举止生成

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

作家提出了一个新型使命:可控 3D 集体举止生成。该使命旨在鉴于给定的举止类别标签和任意集体大小,从高斯噪声中分解一组 3D 人类行动。既有研究尽管可以生成多人行动,但它们限于双人场景或具有固定人数的集体。因此,作家提出了两个基线要领。在第一个基线要领中,集体举止通过重复调用单人运动扩散模型 MDM [4] 来实现,因此每个个体的生成过程都是独立的。第二个要领则鉴于 MDM 增加了一个互动变换器(IFormer)。由于其对人类互动的建模,MDM+IFormer 能够在一次前向传播中产生协调的集体举止。

作家从在集体和个体两个层面考虑以下评估指标:鉴别准确率、弗雷歇特初始距离(FID)、多样性和多模性。此外,作家鉴于社会力模型,在集体层面增补了四个鉴于位置的指标:碰撞频率、排斥互动力、接触排斥力和总排斥力。结果显示:

 MDM+IFormer 能够生成具有良好对齐的角色位置的集体举止。请参见下面的定性图。

 两个基线要领都能生成与输出条件匹配的多样化举止,但 MDM+IFormer 获得了更好的 FID 分数。

MDM+IFormer 中的互动变换器大大降低了生成的集体举止内的碰撞频率。

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

CVPR 2024 | 分解视频数据集里只有单人数据?M3Act破解人群行为标注难题

结论

论文作家通过多模态和增强本能的三个核心试验以及引入一种新的生成使命,揭示了 M3Act 的优点。在多人跟踪和集体举止鉴别试验中,他们观察到了随着更多分解数据的加入,模型对未见测试案例的泛化能力得到了改善。

此外,M3Act 中的分解数据可以替代部分目标领域的真实数据而不影响本能,从而有望减少训练过程中对大量真实数据的需求,进而降低了数据收集和标注的成本。这一发现证明了小样本甚至零样本从放荡数据迁移到现实数据的潜力。

在可控 3D 集体举止生成中,尽管 MDM+IFormer 只是这一使命的基线模型,它仍然学习到了人物运动的交互规则,并在控制下生成对齐良好的集体举止。值得注意的是,尽管生成要领目前表现不及程序化要领,但它揭示了直接从各种信号(举止类别、群组大小、轨迹、密度、速度和文本输出)控制集体行动的潜力。随着未来数据可用性增加和生成模型能力的提升,论文作家预计生成要领最终将占据优势,在社会互动和人类集体举止方面得到更广泛应用。

尽管 M3Act 数据集中集体行为的复杂性可能受到数据生成过程中启发式规则的限制,M3Act 在整合新的集体举止方面提供了显著的灵活性,从而适应任何特定的下游使命。这些新集体可以来源于专家指导的启发式规则、大型语言模型生成的规则或可控 3D 集体举止生成模型的输出。此外,论文作家认识到分解数据与现实世界数据之间存在的领域差异。随着未来版本中数据生成器中资产的增加,可以提高模型的泛化能力并缓解这些差异。

[1] Yuang Zhang, Tiancai Wang, and Xiangyu Zhang. Motrv2: Bootstrapping end-to-end multi-object tracking by pretrained object detectors. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 22056–22065, 2023.

[2] Honglu Zhou, Asim Kadav, Aviv Shamsian, Shijie Geng, Farley Lai, Long Zhao, Ting Liu, Mubbasir Kapadia, and Hans Peter Graf. Composer: Compositional reasoning of group activity in videos with keypoint-only modality. Proceedings of the 17th European Conference on Computer Vision (ECCV 2022), 2022.

[3] Kirill Gavrilyuk, Ryan Sanford, Mehrsan Javan, and Cees GM Snoek. Actor-transformers for group activity recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 839–848, 2020.

[4] Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or, and Amit H Bermano. Human motion diffusion model. arXiv preprint arXiv:2209.14916, 2022.

给TA打赏
共{{data.count}}人
人已打赏
应用

ECCV 2024 Workshop主动驾驭难例场景多模态明白与视频生成征稿与挑战赛火热启动!

2024-6-3 9:19:00

应用

超长小说可以用AI翻译了,新型多智能体合作系统媲美人工翻译

2024-6-3 11:52:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索