只需一张图片、一句行动指令，Animate124轻松生成3D视频

应用
23年12月21日
编辑

机器之心

Animate124，轻松将单张图片变成 3D 视频。近一年来，DreamFusion 引领了一个新潮流，即 3D 动向物体与场景的生成，这在生成技术领域引发了广泛关注。回顾过去一年，我们见证了 3D 动向生成技术在质量和控制性方面的显著进步。技术发展从鉴于文本的生成起步，逐渐融入单视角图象，进而发展到整合多种控制信号。与此相较，3D 动向场景生成仍处于起步阶段。2023 年初，Meta 推出了 MAV3D，标志着首次尝试鉴于文本生成 3D 视频。然而，受限于开源视频生成模型的缺乏，这一领域的进展相对缓慢。然而，现

Animate124，轻松将单张图片变成 3D 视频。

近一年来，DreamFusion 引领了一个新潮流，即 3D 动向物体与场景的生成，这在生成技术领域引发了广泛关注。回顾过去一年，我们见证了 3D 动向生成技术在质量和控制性方面的显著进步。技术发展从鉴于文本的生成起步，逐渐融入单视角图象，进而发展到整合多种控制信号。

与此相较，3D 动向场景生成仍处于起步阶段。2023 年初，Meta 推出了 MAV3D，标志着首次尝试鉴于文本生成 3D 视频。然而，受限于开源视频生成模型的缺乏，这一领域的进展相对缓慢。

然而，现在，鉴于图文结合的 3D 视频生成技术已经问世！

尽管鉴于文本的 3D 视频生成能够产生多样化的内容，但在控制物体的细节和姿态方面仍有局限。在 3D 动向生成领域，利用单张图片作为输入已经能够有效重建 3D 物体。由此受到启发，来自新加坡国立大学（NUS）和华为的研究团队提出了 Animate124 模型。该模型结合单张图片和相应的行动形貌，实现了对 3D 视频生成的精准控制。

只需一张图片、一句行动指令，Animate124轻松生成3D视频

项目主页: https://animate124.github.io/

论文地址: https://arxiv.org/abs/2311.14603

Code: https://github.com/HeliosZhao/Animate124

只需一张图片、一句行动指令，Animate124轻松生成3D视频

核心方法

方法概括

根据动向和动向，粗糙和精细优化，本文将 3D 视频生成分为了 3 个阶段：1）动向生成阶段：利用文生图和 3D 图生图聚集模型，从单张图象生成 3D 物体；2）动向粗糙生成阶段：利用文生视频模型，根据语言形貌优化行动；3) 语义优化阶段：额外利用个性化微调的 ControlNet，对第二阶段语言形貌对外观造成的偏移从事优化改善。

只需一张图片、一句行动指令，Animate124轻松生成3D视频

图 1. 整体框架

动向生成

本文延续 Magic123 的方法，利用文生图（Stable Diffusion）和 3D 图生图（Zero-1-to-3）从事鉴于图片的动向物体生成：

只需一张图片、一句行动指令，Animate124轻松生成3D视频

对于条件图片所对应的视角，额外利用受益函数从事优化：

只需一张图片、一句行动指令，Animate124轻松生成3D视频

通过上述两个优化目标，得到多视角 3D 一致的动向物体（此阶段在框架图中省略）。

动向粗糙生成

此阶段主要利用文生视频聚集模型，将动向 3D 视为初始帧，根据语言形貌生成行动。具体来说，动向 3D 模型（dynamic NeRF）渲染连续时间戳的多帧视频，并将此视频输入文生视频聚集模型，采用 SDS 蒸馏受益对动向 3D 模型从事优化：

只需一张图片、一句行动指令，Animate124轻松生成3D视频

仅利用文生视频的蒸馏受益会导致 3D 模型遗忘图片的内容，并且随机采样会导致视频的初始和结束阶段训练不充分。因此，本文的研究者们对开始和结束的时间戳从事过采样。并且，在采样初始帧时，额外利用动向函数从事优化（3D 图生图的 SDS 蒸馏受益）：

只需一张图片、一句行动指令，Animate124轻松生成3D视频

因此，此阶段的受益函数为：

只需一张图片、一句行动指令，Animate124轻松生成3D视频

语义优化

即使采用了初始帧过采样并且对其额外监督，在利用文生视频聚集模型的优化过程中，物体的外观仍然会受到文本的影响，从而偏移参考图片。因此，本文提出了语义优化阶段，通过个性化模型对语义偏移从事改善。

由于仅有单张图片，无法对文生视频模型从事个性化训练，本文引入了鉴于图文的聚集模型，并对此聚集模型从事个性化微调。此聚集模型应不改变原有视频的内容和行动，仅对外观从事调整。因此，本文采用 ControlNet-Tile 图文模型，利用上一阶段生成的视频帧作为条件，根据语言从事优化。ControlNet 鉴于 Stable Diffusion 模型，只需要对 Stable Diffusion 从事个性化微调（Textual Inversion），即可提取参考图象中的语义信息。个性化微调之后，将视频视为多帧图象，利用 ControlNet 对单个图象从事监督：

只需一张图片、一句行动指令，Animate124轻松生成3D视频

另外，因为 ControlNet 利用粗糙的图片作为条件，classifier-free guidance (CFG) 可以利用正常范围（10 左右），而不用与文生图以及文生视频模型一样利用极大的数值（通常是 100）。过大的 CFG 会导致图象过饱和，因此，利用 ControlNet 聚集模型可以缓解过饱和现象，实现更优的生成结果。此阶段的监督由动向阶段的受益和 ControlNet 监督联合而成：

只需一张图片、一句行动指令，Animate124轻松生成3D视频

实验结果

作为第一个鉴于图文的 3D 视频生成模型，本文与两个 baseline 模型和 MAV3D 从事了比力。与其他方法相比，Animate124 有更好的效果。

可视化结果比力

只需一张图片、一句行动指令，Animate124轻松生成3D视频

图 2. Animate124 与两个 baseline 比力

只需一张图片、一句行动指令，Animate124轻松生成3D视频

图 3.1. Animate124 与 MAV3D 文生 3D 视频比力

只需一张图片、一句行动指令，Animate124轻松生成3D视频

图 3.1. Animate124 与 MAV3D 图生 3D 视频比力

量化结果比力

本文利用 CLIP 和人工评价生成的质量，CLIP 指标包括与文本的相似度和检索准确率，与图片的相似度，以及时域一致性。人工评价指标包括与文本的相似度，与图片的相似度，视频质量，行动真实程度以及行动幅度。人工评价表现为单个模型与 Animate124 在对应指标上选择的比例。

与两个 baseline 模型相比，Animate124 在 CLIP 和人工评价上均取得更好的效果。

只需一张图片、一句行动指令，Animate124轻松生成3D视频

表 1. Animate124 与两个 baseline 量化比力

总结

Animate124 是首个根据文本形貌，将任意图片变成 3D 视频的方法。其采用多种聚集模型从事监督和引导，优化 4D 动向表征网络，从而生成高质量 3D 视频。

给TA打赏

共{{data.count}}人

人已打赏

3D 视频生成 Animate124

“数智说”金融科技与数实交融论坛成功举办

2023-12-20 18:28:00

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

2023-12-21 14:37:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部