三维人体姿态估计

CVPR 2024 | 让视频姿态Transformer变得飞速，北大提出高效三维人体姿态估计框架HoT

目前，Video Pose Transformer（VPT）在基于视频的三维人体姿态估计领域取得了最领先的性能。近年来，这些 VPT 的计算量变得越来越大，这些巨大的计算量同时也限制了这个领域的进一步发展，对那些计算资源不足的研究者十分不友好。例如，训练一个 243 帧的 VPT 模型通常需要花费好几天的时间，严重拖慢了研究的进度，并成为了该领域亟待解决的一大痛点。那么，该如何有效地提升 VPT 的效率同时几乎不损失精度呢？来自北京大学的团队提出了一种基于沙漏 Tokenizer 的高效三维人体姿态估计框架HoT，