WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

前Meta首席工程负责人胡鲁辉带领Seeking AI携手哈佛、斯坦福、北大等知名学府推出WorldGPT,实现静态内容与动态视频的高度融合

OpenAI 的 Sora 在今年 2 月横空出世,把文生视频带向了新阶段。它能够根据文字提示生成好莱坞电影般逼真而又充满想象力的视频。很多人纷纷感叹,现在的 OpenAI 一出手就是巅峰。

由 Sora 引发的热潮还在持续,同时研究者们也看到了 AI 视频生成技术上的巨大潜力,越来越多的人开始关注这一领域。

然而,当前 AI 视频生成领域,大部分算法研究将重点放在了通过文本提示生成视频,对于多模态输入,特别是图片与文本结合的场景,并没有进行深入探讨或广泛应用。这种偏向降低了生成视频的多样性和可控制性,限制了从静态图像到动态视频的转换能力。

另一方面,现有的大部分视频生成模型对生成视频内容缺乏可编辑性的支持,无法满足用户对生成视频进行个性化调整的需求。

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

提示:把熊猫变成熊,并且让它跳舞。(Change the panda to a bear and make it dance.)

本文,来自 Seeking AI、哈佛大学、斯坦福大学以及北京大学的研究者们共同提出了一种创新的基于图片 - 文本的视频生成编辑统一框架,名为 WorldGPT。该框架建立在 Seeking AI 与上述知名高校共同研发的 VisionGPT 框架之上,不仅能够实现由图片和文本直接生成视频的功能,还支持通过简单的文本提示(prompt)对生成视频进行风格迁移、背景替换等一系列视频外观编辑操作。

另外,该框架的另一显著优势是其无需训练,这不仅大幅降低了技术门槛,也使得部署和使用变得极为便捷。用户可以直接利用模型进行创作,无需关注背后复杂的训练过程。

image.png

论文地址:https://arxiv.org/pdf/2403.07944.pdf论文标题:WorldGPT: A Sora-Inspired Video AI Agent as Rich World Models from Text and Image Inputs

接下来我们看看 WorldGPT 在多种复杂视频生成控制场景中的示例展示。

背景替换 + 生成视频

提示:「一支船队在呼啸的风暴中奋力前行,他们的船帆在无情风暴的巨浪中航行。(A fleet of ships pressed on through the howling tempest, their sails billowing as they navigated the towering waves of the relentless storm.)」

image.png

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

背景替换 + 风格化 + 生成视频

提示:「一条可爱的龙在城市的街道上喷火。(A cute dragon is spitting fire on an urban street.)」

image.png

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

对象替换 + 背景替换 + 生成视频

提示:「一个赛博朋克风格的机器人在霓虹灯照亮的反乌托邦城市景观中疾驰,高耸的全息图和数字衰变的反射投影到其光滑的金属机身上。(A cyberpunk-style automaton raced through the neon-lit, dystopian cityscape, reflections of towering holograms and digital decay playing across its sleek, metallic body.)」

image.png

WorldGPT来了:打造类Sora视频AI智能体,「复活」图文

从上面的示例可以看出,WorldGPT 在面对复杂视频生成指令时具有以下优点:

1)较好的保持了原输入图像的结构和环境;

2)生成符合图片 - 文本描述的生成视频,展现出了强大的视频生成定制能力;

3)可以通过 prompt 对生成视频进行定制化编辑。

图片1.png

了解更多有关 WorldGPT 的原理、实验和用例的信息,请查看原论文。

VisonGPT

前面已经提到,WorldGPT 框架建立在 VisionGPT 框架之上。接下来我们简单介绍一下有关 VisionGPT 的信息。

VisionGPT 是由 SeekingAI、斯坦福大学、哈佛大学及北京大学等机构联合研发,是一款开创性的开放世界视觉感知大模型框架。该框架通过智能整合和决策选择最先进的 SOTA 大模型,提供了强大的 AI 多模态图像处理功能。

VisionGPT 的创新之处主要体现在三个方面:

首先,它以大型语言模型(例如 LLaMA-2)为核心,将用户的 prompt 请求分解成详细的步骤需求,并自动化调用最合适的大模型进行处理;其次,VisionGPT 自动接受并融合来自多个 SOTA 大模型产生的多模态输出,从而生成针对用户需求的图像处理结果;最后,VisionGPT 具有极高的灵活性和多功能性,无需用户对模型进行微调,就能够支持包括文本驱动的图像理解、生成、编辑在内的广泛应用场景。

image.png

论文地址:https://arxiv.org/pdf/2403.09027.pdf论文标题:VisionGPT: Vision-Language Understanding Agent Using Generalized Multimodal Framework

VisionGPT 用例

Image [6].png

从上面可以看出,VisionGPT 无需 fine-tune,即可以轻松实现 1)开放世界的实例分割;2)基于 prompt 的图像生成和编辑功能等。VisionGPT 的工作流程如下图所示。

image.png

更多详细信息可以参考论文。

VisionGPT-3D

此外,研究者们还推出了 VisionGPT-3D,旨在解决从文本到视觉元素转换中的一大挑战:如何高效、准确地将 2D 图像转换成 3D 表示。在这个过程中,经常面临算法与实际需求不匹配的问题,从而影响最终结果的质量。VisionGPT-3D 通过整合多种最先进的 SOTA 视觉大模型,提出了一个多模态框架,优化了这一转换流程。其核心创新点在于自动选择最适合的视觉 SOTA 模型和 3D 点云创建算法,并且根据文本提示等多模态输入生成最符合用户需求的输出的能力。

image.png

论文地址:https://arxiv.org/pdf/2403.09530v1.pdf论文标题: VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding

了解更多信息,请参考原论文。

相关资讯

元象推出国内首个基于物理的3D动作生成模型MotionGen

www.MotionGen.cn 一句话生成复杂3D动作,效果惊艳!测试期可申请免费试用。3D内容制作领域,生成逼真的角色动作生成是一个持续挑战,传统方法依赖大量的手K制作,或昂贵动作捕捉设备,效率低、成本高、难以生成一般运动任务或适应复杂场景和交互。元象XVERSE推出国内首个基于物理的3D动作生成模型MotionGen,创新性融合大模型、物理仿真和强化学习等前沿算法,让用户输入简单文本指令,就能快速生成逼真、流畅、复杂的3D动作,效果惊艳,标志着中国3D AIGC领域的重大突破。现在起,零经验创作者也能轻松上手

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

Stability AI 开源上新:3D 生成引入视频扩散模型,质量一致性 up,4090 可玩

Stable Diffusion 背后公司 Stability AI 又上新了。这次带来的是图生 3D 方面的新进展:基于 Stable Video Diffusion 的 Stable Video 3D(SV3D),只用一张图片就能生成高质量 3D 网格。Stable Video Diffusion(SVD)是 Stability AI 此前推出的高分辨率视频生成模型。也就是说,此番登场的 SV3D 首次将视频扩散模型应用到了 3D 生成领域。官方表示,基于此,SV3D 大大提高了 3D 生成的质量和视图一致性。