日前,旷视科技发布了一项新的开源 AI 人像视频生成框架 ——MegActor。基于该框架,用户只需输入一张静态的肖像图片,以及一段视频(演讲、脸色包、rap)文件,即可生成一段脸色丰富、举动同等的 AI 人像视频。MegActor 所生成的视频长度,取决于给定的启动视频的长度。与阿里 EMO、微软 VASA 等最新涌现的 AI 视频模型不同,旷视 MegActor 将采用开源的方式,提供给开发者社区利用。MegActor 能够呈现出丝毫毕现的成果,面部细节更加丰富自然,画质更出色。 为了进一步展示其泛化性,MegActor 甚至可以让 VASA 里面的人物肖像和它们的视频彼此组合生成,得到脸色生动的视频生成结果。 即使是对比阿里 EMO 的官方 Case,MegActor 也能生成近似的结果。
总的来说,不管是让肖像开口说话,让肖像从事唱歌 Rap,还是让肖像摹仿各种搞怪的脸色包,MegActor 都可以得到非常逼真的生成成果。
论文:https://arxiv.org/abs/2405.20851
代码地址:https://github.com/megvii-research/megactor
项目地址:https://megactor.github.io/
MegActor 是旷视研究院的最新研究成果。旷视研究院,是旷视打造的公司级研究机构。旷视研究院旨在通过基础创新突破 AI 技术边界,以工程创新实现技术到产品的快速转化。经过多年发展,旷视研究院已成为全球规模领先的人工智能研究院。
在目前的人像视频生成领域,许多工作通常利用高质量的闭源自采数据从事训练,以追求更好的成果。而旷视研究院始终坚持全面开源,确保实际成果的可复现性。MegActor 的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些令人惊艳的成果。
为了完全复刻原始视频的脸色和举动,MegActor 采用了原始图象从事启动,这与多数厂商利用 sketch、pose、landmark 的中间表示皆然不同,能够捕捉到细致的脸色和运动信息。
旷视科技研究总经理范浩强表示,在 AI 视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频相较于原肖像的保真程度也不尽如人意。通过一系列研究发现,利用原视频从事启动,不仅将帮助用户降低控制信号的门槛,更能生成更加保真且举动同等的视频。
具体来说,MegActor 主要由两个阶段构成:
利用了一个 ReferenceNet 对参照图象从事特征提取,负责得到参照图象的外观和后台等信息;
利用了一个 PoseGuider,对输入的视频从事运动和脸色信息提取,负责将运动和脸色信息迁移到参照图象上。
尽管相较于利用音频或 landmark 等表示方式,利用原始视频从事启动能带来更加丰富的脸色细节和运动信息。然而,利用原始视频从事启动依然存在两大核心技术挑战:一是 ID 流露问题;二是原始视频中的后台和人物皱纹等无关信息会干扰影响合成表现。
为此,MegActor 开创性地采用了条件扩散模型。首先,它引入了一个合成数据生成框架,用于创建具有同等举动和脸色但不同等身份 ID 的视频,以减轻身份流露的问题。其次,MegActor 分割了参照图象的前景和后台,并利用 CLIP 对后台细节从事编码。这些编码的信息随后通过文本嵌入模块集成到网络中,从而确保了后台的稳定性。
在数据训练方面,旷视研究院团队仅利用公开的数据集从事训练,处理了 VFHQ 和 CeleV 数据集从事训练,总时长超过 700 小时。同时,为了避免 ID 流露问题,MegActor 还利用换脸和风格化方法 1:1 生成合成数据,实现脸色和举动同等、但 ID 不同等的数据。此外,为了提高对大范围举动和夸张脸色的摹仿能力,团队利用注视检测模型对数据从事处理,获取大约 5% 的高质量数据从事 Finetune 训练。
通过采用一系列新的模型框架和训练方法,旷视研究院团队仅利用了不到 200 块 V100 显卡小时的训练时长,最终实现的具体特性包括:
可以根据输入的视频生成任意持续时间的摹仿视频,同时保证角色身份的同等性
支持各种启动视频,如演讲、唱歌、脸色包等
支持不同的画风(照片、传统绘画、漫画、AI 数字人等)
与音频生成的方法相比,MegActor 生成的视频,不仅能确保脸色和举动同等,更能达到同样的自然程度。
目前,MegActor 已经完全开源,供广大开发者和用户即开即用。