一键生成可玩游玩天下。
问世才两个星期,google的天下模型也来了,能力看起来更强大:它生成的虚拟天下「自主可控」。刚刚,google定义了生成式 AI 的全新范式 —— 生成式交互情况(Genie,Generative Interactive Environments)。Genie 是一个 110 亿参数的基础天下模型,可以通过单张图象提示生成可玩的交互式情况。
我们可以用它从未见过的图象进行提示,然后与自己想象中的虚拟天下进行互动。
不管是合成图象、照片甚至手绘草图,Genie 都可以从中生成无穷无尽的可玩天下。
Genie 由三个部分组成:一个潜伏行动模型,用于推断每对帧之间的潜伏行动;一个视频 tokenizer,用于将原始视频帧转换为分离 token;一个动态模型,用于在给定潜伏行动和过去帧 token 的情况下,预测视频的下一帧。
看到这项技术发布,很多人表示:google又要来领导 AI 技术了。
google还提出,Genie 学到的潜伏行动可以转移到真实的人类安排的情况中。在这个假设基础上,google针对机器人视频训练了一个 Genie 模型,作为机器人范围潜伏天下模型应用的概念验证。
被颠覆的游玩、安排、XR、机器人行业……
我们可以从四个维度来理解 Genie 的革命性意义。
首先,Genie 可以在没有行动标签时进修控制。
具体来说,Genie 借助大量公开的互联网视频数据集进行了训练,没有任何行动标签数据。
这本来是一个挑战,因为互联网视频通常没有关于正在执行哪个行动、应该控制图象哪一部分的标签,但 Genie 能够专门从互联网视频中进修细粒度的控制。
对于 Genie 而言,它不仅了解观察到的哪些部分通常是可控的,而且还能推断出在生成情况中一致的各种潜伏行动。需要注意的是,相同的潜伏行动如何在不同的 prompt 图象中产生相似的行为。
其次,Genie 可以培养下一代「创作家」(creator)。
只需要一张图象就可以创建一个全新的交互情况,这为生成和进入虚拟天下的各种新办法打开了大门。例如,我们可以利用最先进的文本生成图象模型来生成起始帧,然后与 Genie 一起生成动态交互情况。
在如下动图中,google利用 Imagen2 生成了图象,再利用 Genie 将它们变为现实:
Genie 能做到的不止如此,它还可以应用到草图等人类安排相关的创作范围。
或者,应用在真实天下的图象中:
再次,google认为 Genie 是实现通用智能体的基石之作。以往的研究表明,游玩情况可以成为开发 AI 智能体的有效测试平台,但常常受到可用游玩数量的限制。
现在借助 Genie,未来的 AI 智能体可以在新生成天下的无休止的 curriculum 中接受训练。google提出一个概念证明,即 Genie 学到的潜伏行动可以转移到真实的人类安排的情况中。
最后,google表示,Genie 是一种通用办法,可以应用于多个范围,而不需要任何额外的范围知识。
尽管所用数据更多是 2D Platformer 游玩游玩和机器人视频,但该办法具备通用性,适用于任何类型的范围,并可扩张到更大的互联网数据集。
google在 RT1 的无行动视频上训练了一个较小的 2.5B 模型。与 Platformers 的情况一样,具有相同潜伏行动序列的轨迹通常会表现出相似的行为。
这表明 Genie 能够进修一致的行动空间,这可能适合训练机器人,打造通用化的具身智能。
技术揭秘:论文《Genie: Generative Interactive Environments》已公布
google DeepMind 已经放出了 Genie 论文。
论文地址:https://arxiv.org/pdf/2402.15391.pdf
项目主页:https://sites.google.com/view/genie-2024/home?pli=1
论文的共同一作多达 6 人,其中包括华人学者石宇歌(Yuge (Jimmy) Shi)。她目前是google DeepMind 研究科学家, 2023 年获得牛津大学机器进修博士学位。
办法介绍
Genie 架构中的多个组件基于 Vision Transformer (ViT) 构建而成。值得注意的是,由于 Transformer 的二次内存成本给视频范围带来了挑战,视频最多可以包含 𝑂(10^4 ) 个 token。因此,google在所有模型组件中采用内存高效的 ST-transformer 架构(见图 4),以此平衡模型容量与计算约束。
Genie 包含三个关键组件(如下图所示):
1) 潜伏行动模型(Latent Action Model ,LAM),用于推理每对帧之间的潜伏行动 𝒂;
2) 视频分词器(Tokenizer),用于将原始视频帧转换为分离 token 𝒛;
3) 动态模型,给定潜伏行动和过去帧的 token,用来预测视频的下一帧。
具体而言:
潜伏行动模型:为了实现可控的视频生成,google将前一帧所采取的行动作为未来帧预测的条件。然而,此类行动标签在互联网的视频中可用的很少,并且获取行动注释的成本会很高。相反,google以完全无监督的方式进修潜伏行动(见图 5)。
视频分词器:在之前研究的基础上,google将视频压缩为分离 token,以降低维度并实现更高质量的视频生成(见图 6)。实现过程中,google利用了 VQ-VAE,其将视频的 𝑇 帧作为输入,从而为每个帧生成分离表示:,其中𝐷 是分离潜伏空间巨细。分词器在整个视频序列上利用标准的 VQ-VQAE 进行训练。
动态模型:是一个仅解码器的 MaskGIT transformer(图 7)。
Genie 的推理过程如下所示
实验结果
扩张结果
为了研究模型的扩张行为,google对参数量为 2.7B 到 41M 的模型进行了实验来探讨模型巨细和批巨细的影响,实验结果如下图 9 所示。
可以观察到,模型巨细增加,最终训练损失会减少。这有力地表明 Genie 办法受益于扩张。同时,增加批巨细也会给模型性能带来增益。
定性结果
google展示了在 Platformers 数据集上训练的 Genie 11B 参数模型和在 Robotics 数据集上训练的较小模型的定性实验结果。结果表明,Genie 模型可以生成跨不同范围的高质量、可控视频。值得注意的是,google仅利用分布外(OOD)图象 prompt 来定性评估其平台训练模型,这表明 Genie 办法的稳健性和大规模数据训练的价值。
智能体训练。或许有一天,Genie 可以被用作训练多任务智能体的基础天下模型。在图 14 中,作家展示了该模型已经可以用于在给定起始帧的全新 RL 情况中生成不同的轨迹。
作家在程序生成的 2D 平台游玩情况 CoinRun 中进行评估,并与能够访问专家操作作为上限的预言机行为克隆 (BC) 模型进行比较。
消融研究。选择在安排潜伏行动模型时,作家仔细考虑了要利用的输入类型。虽然最终选择利用原始图象(像素),但作家在安排 Genie 时针对利用标记化图象的替代方案(在图 5 中用 z 替换 x)来评估这一选择。这种替代办法称为「token 输入」模型(参见表 2)。
分词器架构消融。作家比较了三种分词器选择的性能,包括 1)(仅空间)ViT、2)(时空)ST-ViViT 和 3)(时空)CViViT(表 3)。