谷歌DeepMind重磅推出多视角视频扩散模型CAT4D，单视角视频也能转换多视角了

作者：DeepMind 2025-01-07 08:40

单目视觉4D重建再突破！谷歌DeepMind等团队，推出了多视角视频扩散模型CAT4D，它支持输入单个视角的视频，转换后可以自行拖动。该模型可以分别固定视角和时间，然后分别输出了视角不动（机位固定）时间变、时间不变视角动，以及视角时间均变动的效果。

本文经AIGC Studio公众号授权转载，转载请联系出处。

单目视觉4D重建再突破！谷歌DeepMind等团队，推出了多视角视频扩散模型CAT4D，它支持输入单个视角的视频，转换后可以自行拖动。

该模型可以分别固定视角和时间，然后分别输出了视角不动（机位固定）时间变、时间不变视角动，以及视角时间均变动的效果。如下图所示：

论文介绍

CAT4D：使用多视图视频扩散模型以 4D 形式创建任何内容

工作原理

它是如何运作的

给定输入单目视频，我们使用多视图视频扩散模型生成新视点的多视图视频。然后，使用这些生成的视频将动态 3D 场景重建为变形 3D 高斯。

独立的摄像头和时间控制

CAT4D 的核心是多视图视频扩散模型，它可以解开摄像机和场景运动的控制。我们通过给定 3 个输入图像（带有相机姿势）生成三种类型的输出序列来演示这一点：1）固定视点和变化时间，2）变化视点和固定时间，3）变化视点和变化时间。

比较

将我们的方法与不同任务的基线进行比较。尝试选择不同的任务和场景！

给定 3 个输入图像，我们生成三种类型的输出序列：

1. 固定视点和变化时间

2. 变化视点和固定时间

3. 变化视点和变化时间。

仅给定动态场景的一些姿势图像，我们就可以通过重建与一个输入视图的时间相对应的静态 3D 场景来创建“子弹时间”效果。三个输入图像显示在左侧，其中第一个是目标子弹时间帧。

DyCheck 数据集上单目视频动态场景重建的比较。

AIGCRank：2024年7月出海AI网站流量排行榜

AI在线发布 2024年7月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜，并联合哥飞的朋友们出海社群发布出海AI网站流量排行榜！

8/9/2024 4:11:43 PM

Adobe「萤火虫」再次炸场：玩转电影预制作，或颠覆设计行业

一个月前，Adobe 发布 Firefly 的消息引起了整个科技领域关注，在 Adobe 全家桶之下，有的产品已经进入了 AIGC 领域。

4/18/2023 2:39:00 PM

机器之心

国内视频生成爆发前夕，我们组织了一场核心玩家都参与的分享交流会

近几个月来，视频生成领域陆续发布了新技术、新模型和新工具，AI 生成的视频效果也得到了肉眼可见的提升和颠覆。很多人认为，人工智能领域接下来公认的主战场，毋庸置疑是视频生成技术。图 1：2023 年 AI 视频工具概览图片来源： Pika 1.0 全面开放、Runway 发布的 Gen-2 开始商业化探索、Meta、Moonvalley 和 Stability AI 等公司陆续发布了 AI 视频工具等，视频生成在整个 AI 领域掀起了讨论热潮。与此同时，当我们把视线聚焦在国内的 AI 视频生成领域上，同样也看到了

1/8/2024 10:33:00 AM

李亚洲