CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇实质,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]。想象一下,你仅需要输入一段简单的文本描述,就可以生成对应的 3D 数字人动画的骨骼举措。而以往,这通常需要昂贵的举措捕捉设备或是专业的动画师逐帧绘制。这些骨骼举措可以进一步的用于游戏开发

CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇实质,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

想象一下,你仅需要输入一段简单的文本描述,就可以生成对应的 3D 数字人动画的骨骼举措。而以往,这通常需要昂贵的举措捕捉设备或是专业的动画师逐帧绘制。这些骨骼举措可以进一步的用于游戏开发,影视制作,或者虚拟现实应用。来自阿尔伯塔大学的研究团队提出的新一代 Text2Motion 框架,MoMask,正在让这一切变得可能。CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

                            视频 1: 给定指定的举措描述,MoMask 可生成对应的骨骼动画(视频包含背景音乐)

MoMask 框架是基于多层分离化举措表示的,利用生成式掩码技术,能够生成更高质量的 3D 人体举措。如视频 1 中展示,MoMask 可以根据文本描述,精细控制生成的举措实质。在 HumanML3D 数据集上,MoMask 的生成质量可达到 FID 为 0.045,超过了现有的最优工作如 T2M-GPT(0.141)和 ReMoDiffuse(0.103)。这项研究成果已被 CVPR 2024 收录,并且其代码和模型已在 GitHub 上开源,拥有 500 + 星标。

CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

论文题目:MoMask: Generative Masked Modeling of 3D Human Motions

论文链接:https://arxiv.org/abs/2312.00063

代码链接:https://github.com/EricGuo5513/momask-codes

Huggingface Space 链接:https://huggingface.co/spaces/MeYourHint/MoMask

MoMask 模型介绍

CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

                               图 2:MoMask 框架结构与训练流程

MoMask 框架主要包含三个关键的神经网络模块:

残差量化模型 (Residual VQ-VAE),将人体举措转换为多层分离的举措符号(Token)。下层(即第一层)的举措符号包含了举措的基本信息,而残差层则对应更细粒度的举措信息。

Masked Transformer:对下层的举措符号从事建模,采用随机比例的随机掩码,并根据文本信息猜测被掩码的举措符号,用于生成下层举措符号。

Residual Transformer:对残差层的举措符号从事建模,根据前 j 层的举措符号猜测第 j 层的举措符号,以此来建模残差层的举措序列。

CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

                              图 3: T2M-GPT 的举措分离化模型 (VQ-VAE)

举措序列分离化。MoMask 采用基于分离表达的生成式框架,首先将连续的举措表达从事分离化。如图 3,传统的 VQ-VAE 在量化(Quantization)过程中存在信息损失问题,因为它将每个隐向量替换为码书(Codebook)中最相近的码向量,这两个向量之间的差异导致了信息的丢失。为了解决这个问题,MoMask 采用了多层量化的方法(图 2.a),逐层对隐向量和码向量之间的残差进一步量化,从而提高了隐向量的估计精度。随着层数加深,每一层所建模的信息量(即残差)也逐步减少。训练时,为了尽可能增加每一个量化层的容量,我们随机丢弃掉末尾的若干个残差层。最终,举措序列被转化为多层的分离举措符号,其中下层符号包含了举措的主要实质,而残差层则用于填补举措的细节。接下来,MoMask 使用 Masked Transformer 生成下层举措符号,并使用 Residual Transformer 逐层猜测残差层的举措符号。

生成式掩码建模。如图 2.b,文本描述首先通过 CLIP 编码成语义向量,同时下层的举措符号序列被随机掩码。然后,这些掩码的举措符号序列和 CLIP 文本向量一起输入到 Transformer 中从事训练,其目标是准确猜测被掩码掉的举措符号。与以往基于掩码的预训练模型不同的是,这里掩码符号的比例是随机的,并且可以在 0 到 1 的区间取值,这意味着掩码的程度也是随机的。最坏情况下,所有符号都被掩码,而最好情况下,所有符号都被保留。

残差层符号猜测。由于残差层包含了更细粒度的举措信息,因此根据前面 j > 1 层的举措符号实质,可以基本确定第 j 层的举措符号。在训练时,随机选择一个残差层 j 从事猜测,将已知的前 j 层的举措符号、CLIP 文本向量以及第 j 层的编码输入到 Transformer 中,使用交叉熵损失函数来优化模型。

CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

                                图 4: MoMask 推断流程

生成过程。图 4 描述了 MoMask 框架中的生成过程。从下层的举措符号序列开始,所有的举措符号都被掩码,然后通过 Masked Transformer 从事猜测,得到完整的符号序列。接着,仅置信度最高的一部分符号被保留,剩下的符号将被重新掩码(Remask),并重新猜测。通过一个预设的调度函数 (Schedule function),在经过一定次数的掩码与猜测后,得到最终的下层举措符号序列。然后,Residual Transformer 根据下层的符号序列,逐层地猜测残差层的符号序列。最终,所有符号序列被输入到 RVQ-VAE 的解码器中,并解码获得对应的举措序列。因此,无论举措序列的长度为多少,MoMask 只需要固定步数去生成该序列。通常情况下,MoMask 仅需要从事不超过 20 步的迭代,包括基础与残差层的生成。

实验结果CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

                          视频 2:MoMask 与基线方法的对比

在视频 2 中,MoMask 与其他三个基线方法从事了对比,包括主流的扩散模型(MDM、MLD)和 GPT 模型(T2M-GPT)。MoMask 在应对挑战性举措(如绊脚和抱脚)以及更精细的文本控制方面表现更出色。

在下表中,我们对 MoMask 在 HumanML3D 和 KIT-ML 数据集上的性能从事了更全面的分析。可以看出,MoMask 框架在 R-Precision 和 FID 等指标上始终表现最优,在 HumanML3D 数据集上,生成质量达到了 FID 为 0.045。

CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

图 5 展示了 Masked Transformer 推断步数对生成举措的整体质量影响,其中 FID 和 MM-Dist 分别指示了举措生成质量以及举措与文本实质的匹配程度,值越低代表性能越好。从图中可以看出,仅需要从事 10 步推断,生成质量就可以收敛到最优水平。

CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架

                             图 5: 推断步数对生成质量影响

应用:举措时序补齐

MoMask 还可用于举措序列的时序补齐,即根据文本对举措序列指定的区间从事编辑或修改。在视频 3 中,展示了基于 MoMask 对举措序列的前缀、中间部分和后缀,根据给定的文本从事实质补齐。CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架                           视频 3: 基于 MoMask 的举措时序补齐 

给TA打赏
共{{data.count}}人
人已打赏
应用

华为软件精英挑战赛成功举行十届,超2000名软件精英加入华为

2024-4-29 12:05:00

应用

亚马逊钻研奖获奖名单出炉:谢赛宁、Mamba作者Albert Gu等入选

2024-4-29 14:42:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索