谷歌 DeepMind 推 CAT4D:AI 魔法突破次元壁,普通视频活变 3D 大片

科技媒体 The Decoder 昨日(1 月 3 日)发布博文,报道称谷歌 DeepMind 联合哥伦比亚大学、加州大学圣地亚哥分校的研究人员,开发了一款名为 CAT4D 的 AI 系统,可以将普通视频转化为动态 3D 场景,降低了 3D 内容创作的门槛,为多个行业带来了新的可能性。

科技媒体 The Decoder 昨日(1 月 3 日)发布博文,报道称谷歌 DeepMind 联合哥伦比亚大学、加州大学圣地亚哥分校的研究人员,开发了一款名为 CAT4D 的 AI 系统,可以将普通视频转化为动态 3D 场景,降低了 3D 内容创作的门槛,为多个行业带来了新的可能性。

CAT4D 系统利用扩散模型,将单视角拍摄的视频转换为多视角视图,并将其构建成动态 3D 场景,用户可以从不同角度观看视频中的主体,如同置身其中。AI在线附上演示图如下:

谷歌 DeepMind 推 CAT4D:AI 魔法突破次元壁,普通视频活变 3D 大片

以往,实现类似效果需要多台摄像机同时录制同一场景,而 CAT4D 则简化了这一流程,只需普通视频素材即可,这项技术有望革新游戏开发、电影制作和增强现实等领域。

在训练 AI 过程中,谷歌 DeepMind 团队发现没有太多现有数据,为了解决这个问题,团队混合真实世界的镜头与计算机生成的内容,训练数据包括静态场景的多视图图像、单视角视频和合成 4D 数据,通过扩散模型学习,在特定时刻从特定角度创建图像。

谷歌 DeepMind 推 CAT4D:AI 魔法突破次元壁,普通视频活变 3D 大片

该系统现阶段所生成的 3D 场景,比原始素材要短,但 CAT4D 的成像质量已优于同类系统。CAT4D 技术具有广泛的应用前景。游戏开发者可以利用它创建虚拟环境,电影制作人和 AR 开发者也可以将其融入到工作流程中。

相关资讯

消息称谷歌将推出明星网红 AI 聊天机器人,与 Meta 竞争

根据 The Information 爆料消息,谷歌正在基于明星和 YouTube 网红构建新的 AI 聊天机器人。这个想法并不是谷歌首创的,目前包括 Character.ai 这样的初创公司,以及像 Meta 这样的大公司已经推出了类似的产品。爆料称,谷歌的明星网红 AI 聊天机器人将由该公司的 Gemini 大语言模型提供支持。该公司还在尝试与有影响力的明星网红建立合作伙伴关系,并且还在开发一项功能,让人们只需描述自己的个性和外表就可以创建自己的聊天机器人,类似 Character.ai 的做法。IT之家还发现

谷歌Gemini1.5火速上线:MoE架构,100万上下文

今天,谷歌宣布推出 Gemini 1.5。Gemini 1.5 建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上,包括通过新的专家混合 (MoE) 架构使 Gemini 1.5 的训练和服务更加高效。谷歌现在推出的是用于早期测试的 Gemini 1.5 的第一个版本 ——Gemini 1.5 Pro。它是一种中型多模态模型,针对多种任务的扩展进行了优化,其性能水平与谷歌迄今为止最大的模型 1.0 Ultra 类似,并引入了长上下文理解方面的突破性实验特征。Gemini 1.5 Pro 配备了 128000

谷歌最高优先级项目曝光:下一代AI搜索,誓要打败ChatGPT

岁末年初,科技公司似乎集体进入了反思阶段。过去一个月里,谷歌创始人拉里・佩奇、谢尔盖・布林与公司高管一直在开会,讨论新型 AI 聊天机器人。