有了阿里的 EMO,AI 生成或真实的图象「动起来谈话或唱歌」变得更容易了。
最近,以 OpenAI Sora 为代表的文生视频模型又火了起来。
而除了文本生成视频之外,以人为中心的视频分解也一直是研究的焦点,比如专注于谈话人头部(Talking Head)的视频生成,它的目标是根据用户提供的音频片段来生成脸部心情。
从技术上来看,生成心情需要捕获谈话人微妙和多样化的脸部行动,由此对此类视频分解任务提出了重大挑战。
传统法子通常会对最终的视频输出施加限度,以简化任务。比如,一些法子使用 3D 模型来限度脸部关键点, 另一些法子则从原始视频中提取头部疏通的序列以指导整体疏通。这些限度虽然降低了视频生成的复杂性,但也往往限度了最终脸部心情的丰富度和自然度。
在阿里智能计算研究院近日的一篇论文中,研究者通过关注音频提示和脸部行动之间的动态和细微联系,来增强谈话人头部视频生成的真实度、自然度和表现力。
研究者发现,传统法子往往无法捕捉完整范围的谈话人心情和不同谈话人独特的脸部风格。基于此,他们提出了 EMO(全称为 Emote Portrait Alive)框架,该框架可以直接利用音频 – 视频分解法子,不再需要中间 3D 模型或脸部标志。
论文标题:EMO: Emote Portrait Alive- Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
论文地址:https://arxiv.org/pdf/2402.17485.pdf
项目主页:https://humanaigc.github.io/emote-portrait-alive/
就效果而言,阿里的法子可以确保整个视频的无缝帧过渡,并保持身份一致,进而产生表现力强和更加逼真的脚色化身视频,在表现力和真实感方面显著优于当前 SOTA 法子。
比如 EMO 可以让 Sora 生成的东京女郎脚色开口唱歌,歌曲为英国 / 阿尔巴尼亚双国籍女歌手 Dua Lipa 演唱的《Don't Start Now》。EMO 支持包括英文、中文在内等不同语言的歌曲,可以直观地识别音频的调子变化,生成动态、心情丰富的 AI 脚色化身。比如让 AI 绘画模型 ChilloutMix 生成的小姐姐唱陶喆的《Melody》。
EMO 还能让脚色化身跟上快节奏的 Rap 歌曲,比如让小李子来一段美国说唱歌手 Eminem 的《哥斯拉》(Godzilla)。当然,EMO 不仅仅能让脚色开口唱歌,还支持各种语言的口语音频,将不同风格的肖像画、绘画以及 3D 模型和 AI 生成的内容制作成栩栩如生的动画视频。比如奥黛丽赫本的谈话。
最后,EMO 还能实现不同脚色之间的联动,比如《狂飙》高启强联动罗翔老师。
法子概览
给定人物肖像的单张参照图象,本文法子可以生成与输出语音音频片段同步的视频,还能保留人物非常自然的头部疏通和生动的心情,并且与所提供的声音音频的调子变化相协调。通过创建一系列无缝的级联视频,该模型有助于生成具有一致身份和连贯疏通的长时间谈话肖像视频,这对于现实应用至关重要。
搜集 Pipeline
法子概览如下图所示。骨干搜集接收多帧噪声潜在输出,并尝试在每个时间步骤中将它们去噪为连续的视频帧,骨干搜集具有与原始 SD 1.5 版本相似的 UNet 结构配置,具体而言
与之前的工作相似,为了确保生成帧之间的连续性,骨干搜集嵌入了时间模块。
为了保持生成帧中人像的 ID 一致性,研究者部署了一个与骨干搜集并行的 UNet 结构,称为 ReferenceNet,它输出参照图象以获取参照特色。
为了驱动脚色谈话时的行动,研究者使用了音频层来编码声音特色。
为了使谈话脚色的行动可控且稳定,研究者使用脸部定位器和速率层提供弱条件。
对于骨干搜集,研究者没有使用提示嵌入,因此,他们将 SD 1.5 UNet 结构中的交叉注意力层调整为参照注意力层。这些修改后的层将从 ReferenceNet 获取的参照特色作为输出,而非文本嵌入。
训练策略
训练过程分为三个阶段:
第一阶段是图象预训练,其中骨干搜集、ReferenceNet 和脸部定位器被纳入训练过程中,在这个阶段,骨干搜集以单一帧作为输出,而 ReferenceNet 处理来自同一视频剪辑的不同的、随机选择的帧。骨干搜集和 ReferenceNet 都从原始 SD 初始化权重。
在第二阶段,研究者引入了视频训练,并且加入了时间模块和音频层,从视频剪辑中采样 n+f 个连续帧,其中起始的 n 帧为疏通帧。时间模块从 AnimateDiff 初始化权重。
最后一个阶段集成了速率层,研究者只在这个阶段训练时间模块和速率层。这种做法是为了故意忽略训练过程中的音频层。因为谈话人的心情、嘴部疏通和头部疏通的频率主要受音频的影响。因此,这些元素之间似乎存在相关性,模型可能会根据速率信号而不是音频来驱动脚色的疏通。实验结果表明,同时训练速率层和音频层削弱了音频对脚色疏通的驱动能力。
实验结果
实验过程中参与比较的法子包括 Wav2Lip、SadTalker、DreamTalk。
图 3 展示了本文法子与先前法子的比较结果。可以观察到,当提供单个参照图象作为输出时,Wav2Lip 通常会分解模糊的嘴部区域并生成以静态头部姿态和最小眼部疏通为特色的视频。就 DreamTalk 而言,其结果可能会扭曲原始面孔,也会限度脸部心情和头部疏通的范围。与 SadTalker 和 DreamTalk 相比,该研究提出的法子能够生成更大范围的头部疏通和更生动的脸部心情。
该研究进一步探索了各种肖像风格的头像视频生成,如现实、动漫和 3D。这些脚色使用相同的声音音频输出进行动画处理,结果显示,生成的视频在不同风格之间产生大致一致的唇形同步。
图 5 表明本文法子在处理具有明显调子特色的音频时能够生成更丰富的脸部心情和行动。例如下图第三行,高调子会引发脚色更强烈、更生动的心情。此外,借助疏通帧还可以扩展生成的视频,即根据输出音频的长度生成持续时间较长的视频。如图 5 和图 6 所示,本文法子即使在大幅疏通中也能在扩展序列中保留脚色的身份。
表 1 结果表明本文法子在视频质量评估方面具有显著优势: