CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

AI 数字人脸部与肢体的驱动算法作为数字人研发的重要环节，可以大幅度降低 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。近年来，鉴于语音生成脸部、肢体和手部的作为的各类独立基线模型已经逐渐成熟。然而，直接将不同模型的动画结果混合会导致最终满身整体的动画不协调。研究者逐渐考虑应用统一的框架来同时生成脸部心情和肢体作为。然而，尽管研究社区在脸部的心情和肢体的作为上分别存在统一的数据标准，已有的基线模型仅在独立的数据格式上进行训练和评估，比如 FLAME (脸部) 和 AMASS (肢体)。社区仍然缺少面向

AI 数字人脸部与肢体的驱动算法作为数字人研发的重要环节，可以大幅度降低 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。

近年来，鉴于语音生成脸部、肢体和手部的作为的各类独立基线模型已经逐渐成熟。然而，直接将不同模型的动画结果混合会导致最终满身整体的动画不协调。研究者逐渐考虑应用统一的框架来同时生成脸部心情和肢体作为。

然而，尽管研究社区在脸部的心情和肢体的作为上分别存在统一的数据标准，已有的基线模型仅在独立的数据格式上进行训练和评估，比如 FLAME (脸部) 和 AMASS (肢体)。社区仍然缺少面向满身的，格式统一的训练数据和基线模型。

针对此问题，东京大学，清华大学，德国马普所的研究者联合提出了 EMAGE，一个从音频和作为的掩码中生成人体满身作为的框架，包括脸部、局部肢体、手部和全部静止。

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

论文地址：https://arxiv.org/abs/2401.00374

项目主页：https://pantomatrix.github.io/EMAGE/

视频结果：https://www.youtube.com/watch?v=T0OYPvViFGE

hugging face space 链接：https://huggingface.co/spaces/H-Liu1997/EMAGE

EMAGE 研究论文包含 BEAT2 与 EMAGE 两部分。用户可以自定义作为的输出，在接受预定义的时序与空间的作为输出方面具有灵活性，最终可生成完整的、与音频相同步的结果，EMAGE 输出满身作为的效果属于业界 SOTA。

BEAT2: 即 BEAT-SMPLX-FLAME，是语音与鉴于网格的作为数据的满身数据集，共有 60 小时的数据。BEAT2 将 SMPLX 的肢体与 FLAME 的脸部参数相结合，并进一步解决了头部、颈部和手指等静止的模型问题，为研究社区提供了一个标准化且高质量的 3D 动捕数据集。

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

左：将精调后的 SMPLX 肢体参数结果（Refined Moshed）与 BEAT 的原始骨架数据（BEAT）、应用 AutoRegPro 的重定向数据（Retargeted）以及 Mosh++ 的初始结果（Moshed）进行比较，精调的结果拥有正确的颈部弯曲、适当的头颈形状比例和详细的手指弯曲。

右：将原始 BEAT 中的混合心情权重可视化，与 ARKit 的基础脸部模板（BEAT）、鉴于线性 Wrapped 的方法（Wrapped Optimum）以及人工 PCA 映射 FACs 的心情优化（Handcraft Optimum）进行比较。最终的人工映射优化鉴于 FLAME 混合心情，实现了准确的唇动细节和自然对话时的口型。

EMAGE：在训练过程中利用了肢体作为掩码的先验知识来提高推理性能。EMAGE 应用了一个音频与作为掩码的转换器，有效提高了音频生成作为和作为掩码下的作为重建的联合训练的效率，从而有效地将音频和肢体作为的提醒帧编码进网络。作为掩码的肢体提醒帧分别被用于生成脸部和肢体作为。此外，EMAGE 自适应地合并了音频的节奏和内容的语音特色，并利用身体各个部位 (共计四种) 的组合式 VQ- VAEs 来增强结果的真实性和多样性。

下图给出了 EMAGE 生成肢体动画的例子：

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

从上到下依次为：真实数据、不应用肢体提醒帧生成的数据、应用肢体提醒帧生成的数据、肢体提醒帧的可视化：

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

EMAGE 可以生成多样化、具有语义和与音频同步的肢体作为，例如，对于 “spare time” 这个提醒词，可以同时举起双手，而对于 “hike in nature” 则可以采取放松的作为。

此外，如第三行和第四行所示，EMAGE 可以灵活地接受非音频同步的肢体提醒帧，鉴于任意帧或关节，以此明确引导生成的作为。例如，重复类似的作为比如举起双手，或是改变行走方向等。注：此图中，第三列的生成结果的关节提醒（灰色网格），与第四行的肢体提醒帧的关节（绿色网格）并不一致。

下图是 EMAGE 生成脸部动画的结果：

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为

EMAGE 生成的脸部静止与基线模型的对比。

分别是脸部单独生成的方法如 faceformer 与 codetalker、满身整体作为生成方法如 Habibie et al. 和 Talkshow。在 BEAT2 数据集中，因为 codetalker 具有离散的脸部先验知识，所以即使 codetalker 的 MSE（均方误差）更高，即更偏离真实数据，但主观结果更好。而 EMAGE 则利用离散的脸部先验知识和作为掩码的肢体提醒帧，实现了更精准的唇动性能。

模型介绍

CVPR 2024 | 脸部+肢体动画，一个框架搞定从音频生成数字人心情与作为