AI 数字人脸部与肢体的驱动算法作为数字人研发的重要环节,可以大幅度降低 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。
近年来,鉴于语音生成脸部、肢体和手部的作为的各类独立基线模型已经逐渐成熟。然而,直接将不同模型的动画结果混合会导致最终满身整体的动画不协调。研究者逐渐考虑应用统一的框架来同时生成脸部心情和肢体作为。
然而,尽管研究社区在脸部的心情和肢体的作为上分别存在统一的数据标准,已有的基线模型仅在独立的数据格式上进行训练和评估,比如 FLAME (脸部) 和 AMASS (肢体)。社区仍然缺少面向满身的,格式统一的训练数据和基线模型。
针对此问题,东京大学,清华大学,德国马普所的研究者联合提出了 EMAGE,一个从音频和作为的掩码中生成人体满身作为的框架,包括脸部、局部肢体、手部和全部静止。
论文地址:https://arxiv.org/abs/2401.00374
项目主页:https://pantomatrix.github.io/EMAGE/
视频结果:https://www.youtube.com/watch?v=T0OYPvViFGE
hugging face space 链接:https://huggingface.co/spaces/H-Liu1997/EMAGE
EMAGE 研究论文包含 BEAT2 与 EMAGE 两部分。用户可以自定义作为的输出,在接受预定义的时序与空间的作为输出方面具有灵活性,最终可生成完整的、与音频相同步的结果,EMAGE 输出满身作为的效果属于业界 SOTA。
BEAT2: 即 BEAT-SMPLX-FLAME,是语音与鉴于网格的作为数据的满身数据集,共有 60 小时的数据。BEAT2 将 SMPLX 的肢体与 FLAME 的脸部参数相结合,并进一步解决了头部、颈部和手指等静止的模型问题,为研究社区提供了一个标准化且高质量的 3D 动捕数据集。
左:将精调后的 SMPLX 肢体参数结果(Refined Moshed)与 BEAT 的原始骨架数据(BEAT)、应用 AutoRegPro 的重定向数据(Retargeted)以及 Mosh++ 的初始结果(Moshed)进行比较,精调的结果拥有正确的颈部弯曲、适当的头颈形状比例和详细的手指弯曲。
右:将原始 BEAT 中的混合心情权重可视化,与 ARKit 的基础脸部模板(BEAT)、鉴于线性 Wrapped 的方法(Wrapped Optimum)以及人工 PCA 映射 FACs 的心情优化(Handcraft Optimum)进行比较。最终的人工映射优化鉴于 FLAME 混合心情,实现了准确的唇动细节和自然对话时的口型。
EMAGE:在训练过程中利用了肢体作为掩码的先验知识来提高推理性能。EMAGE 应用了一个音频与作为掩码的转换器,有效提高了音频生成作为和作为掩码下的作为重建的联合训练的效率,从而有效地将音频和肢体作为的提醒帧编码进网络。作为掩码的肢体提醒帧分别被用于生成脸部和肢体作为。此外,EMAGE 自适应地合并了音频的节奏和内容的语音特色,并利用身体各个部位 (共计四种) 的组合式 VQ- VAEs 来增强结果的真实性和多样性。
下图给出了 EMAGE 生成肢体动画的例子:
从上到下依次为:真实数据、不应用肢体提醒帧生成的数据、应用肢体提醒帧生成的数据、肢体提醒帧的可视化:
EMAGE 可以生成多样化、具有语义和与音频同步的肢体作为,例如,对于 “spare time” 这个提醒词,可以同时举起双手,而对于 “hike in nature” 则可以采取放松的作为。
此外,如第三行和第四行所示,EMAGE 可以灵活地接受非音频同步的肢体提醒帧,鉴于任意帧或关节,以此明确引导生成的作为。例如,重复类似的作为比如举起双手,或是改变行走方向等。注:此图中,第三列的生成结果的关节提醒(灰色网格),与第四行的肢体提醒帧的关节(绿色网格)并不一致。
下图是 EMAGE 生成脸部动画的结果:
EMAGE 生成的脸部静止与基线模型的对比。
分别是脸部单独生成的方法如 faceformer 与 codetalker、满身整体作为生成方法如 Habibie et al. 和 Talkshow。在 BEAT2 数据集中,因为 codetalker 具有离散的脸部先验知识,所以即使 codetalker 的 MSE(均方误差)更高,即更偏离真实数据,但主观结果更好。而 EMAGE 则利用离散的脸部先验知识和作为掩码的肢体提醒帧,实现了更精准的唇动性能。
模型介绍
EMAGE 是一个支持用户自定义输出,带有作为掩码与音频输出的满身作为建模框架,应用新提出的数据集 BEAT2(BEAT-SMPLX-FLAME),生成脸部心情、局部身体作为、手部作为和全部平移静止时,是以音频与作为掩码作为基准联合训练。灰色身体部位是用户输出的肢体提醒帧,蓝色表示整体的网络输出。
算法细节
EMAGE 采取了两种训练路线:作为掩码重建(MaskedGesture2Gesture,即 MG2G)和应用音频的作为生成(Audio2Gesture,即 A2G)。
MG2G:通过鉴于 Transformer 的作为的时空编码器与鉴于交叉注意力的作为解码器,来对肢体提醒帧进行编码。
A2G:利用输出的肢体提醒与独立的的音频编码器,对于经过预训练的脸部和肢体潜征进行解码。
可切换的交叉注意力层在上述过程中作为关键组件,对于合并肢体提醒帧和音频特色起重要作用。此交融使特色被有效地解耦并可以被用于作为的解码。作为潜征被重建之后,EMAGE 应用预训练的 VQ-Decoder 来对于脸部和局部肢体静止进行解码。
此外,预训练的全部静止预测器也被用来估计满身的全部平移,使得模型生成逼真并且连贯作为的能力得到加强。
CRA 和 VQ-VAEs 的与训练模型的细节
左图:内容节奏注意力模块 (CRA) 将音频的节奏(初始语音和振幅)与内容(来自文本的预训练词条嵌入)自适应地相交融。这种架构可以让特定帧更有效地鉴于音频的内容或节奏,生成更加具有语义的作为。
右图:通过对于脸部、肢体上半身、手部和肢体下半身的分别重建,来预训练四个组合式 VQ-VAEs 模型,以更加明示地将与音频无关的作为相解耦。
前向传播网络对比
直接交融模块 (a) : 将音频特色与未精调的肢体特色合并,仅鉴于位置嵌入重组音频特色。
自注意力解码器模块 (b) : 为 MLM 模型中所采用的模块,只限于自回归推理的任务。
EMAGE (c) : 交融 (a) 与 (b) 的长处,同时使音频特色交融更有效,且可以自回归解码。