Animate124,轻松将单张图片变成 3D 视频。
近一年来,DreamFusion 引领了一个新潮流,即 3D 动向物体与场景的生成,这在生成技术领域引发了广泛关注。回顾过去一年,我们见证了 3D 动向生成技术在质量和控制性方面的显著进步。技术发展从鉴于文本的生成起步,逐渐融入单视角图象,进而发展到整合多种控制信号。
与此相较,3D 动向场景生成仍处于起步阶段。2023 年初,Meta 推出了 MAV3D,标志着首次尝试鉴于文本生成 3D 视频。然而,受限于开源视频生成模型的缺乏,这一领域的进展相对缓慢。
然而,现在,鉴于图文结合的 3D 视频生成技术已经问世!
尽管鉴于文本的 3D 视频生成能够产生多样化的内容,但在控制物体的细节和姿态方面仍有局限。在 3D 动向生成领域,利用单张图片作为输入已经能够有效重建 3D 物体。由此受到启发,来自新加坡国立大学(NUS)和华为的研究团队提出了 Animate124 模型。该模型结合单张图片和相应的行动形貌,实现了对 3D 视频生成的精准控制。
项目主页: https://animate124.github.io/
论文地址: https://arxiv.org/abs/2311.14603
Code: https://github.com/HeliosZhao/Animate124
核心方法
方法概括
根据动向和动向,粗糙和精细优化,本文将 3D 视频生成分为了 3 个阶段:1)动向生成阶段:利用文生图和 3D 图生图聚集模型,从单张图象生成 3D 物体;2)动向粗糙生成阶段:利用文生视频模型,根据语言形貌优化行动;3) 语义优化阶段:额外利用个性化微调的 ControlNet,对第二阶段语言形貌对外观造成的偏移从事优化改善。
图 1. 整体框架
动向生成
本文延续 Magic123 的方法,利用文生图(Stable Diffusion)和 3D 图生图(Zero-1-to-3)从事鉴于图片的动向物体生成:
对于条件图片所对应的视角,额外利用受益函数从事优化:
通过上述两个优化目标,得到多视角 3D 一致的动向物体(此阶段在框架图中省略)。
动向粗糙生成
此阶段主要利用文生视频聚集模型,将动向 3D 视为初始帧,根据语言形貌生成行动。具体来说,动向 3D 模型(dynamic NeRF)渲染连续时间戳的多帧视频,并将此视频输入文生视频聚集模型,采用 SDS 蒸馏受益对动向 3D 模型从事优化:
仅利用文生视频的蒸馏受益会导致 3D 模型遗忘图片的内容,并且随机采样会导致视频的初始和结束阶段训练不充分。因此,本文的研究者们对开始和结束的时间戳从事过采样。并且,在采样初始帧时,额外利用动向函数从事优化(3D 图生图的 SDS 蒸馏受益):
因此,此阶段的受益函数为:
语义优化
即使采用了初始帧过采样并且对其额外监督,在利用文生视频聚集模型的优化过程中,物体的外观仍然会受到文本的影响,从而偏移参考图片。因此,本文提出了语义优化阶段,通过个性化模型对语义偏移从事改善。
由于仅有单张图片,无法对文生视频模型从事个性化训练,本文引入了鉴于图文的聚集模型,并对此聚集模型从事个性化微调。此聚集模型应不改变原有视频的内容和行动,仅对外观从事调整。因此,本文采用 ControlNet-Tile 图文模型,利用上一阶段生成的视频帧作为条件,根据语言从事优化。ControlNet 鉴于 Stable Diffusion 模型,只需要对 Stable Diffusion 从事个性化微调(Textual Inversion),即可提取参考图象中的语义信息。个性化微调之后,将视频视为多帧图象,利用 ControlNet 对单个图象从事监督:
另外,因为 ControlNet 利用粗糙的图片作为条件,classifier-free guidance (CFG) 可以利用正常范围(10 左右),而不用与文生图以及文生视频模型一样利用极大的数值(通常是 100)。过大的 CFG 会导致图象过饱和,因此,利用 ControlNet 聚集模型可以缓解过饱和现象,实现更优的生成结果。此阶段的监督由动向阶段的受益和 ControlNet 监督联合而成:
实验结果
作为第一个鉴于图文的 3D 视频生成模型,本文与两个 baseline 模型和 MAV3D 从事了比力。与其他方法相比,Animate124 有更好的效果。
可视化结果比力
图 2. Animate124 与两个 baseline 比力
图 3.1. Animate124 与 MAV3D 文生 3D 视频比力
图 3.1. Animate124 与 MAV3D 图生 3D 视频比力
量化结果比力
本文利用 CLIP 和人工评价生成的质量,CLIP 指标包括与文本的相似度和检索准确率,与图片的相似度,以及时域一致性。人工评价指标包括与文本的相似度,与图片的相似度,视频质量,行动真实程度以及行动幅度。人工评价表现为单个模型与 Animate124 在对应指标上选择的比例。
与两个 baseline 模型相比,Animate124 在 CLIP 和人工评价上均取得更好的效果。
表 1. Animate124 与两个 baseline 量化比力
总结
Animate124 是首个根据文本形貌,将任意图片变成 3D 视频的方法。其采用多种聚集模型从事监督和引导,优化 4D 动向表征网络,从而生成高质量 3D 视频。