扩散模型做游戏引擎,单TPU 20 FPS模拟毁灭战士,谷歌最新GameNGen太博眼球了

GameNGen 是第一个完全由神经模型驱动的游戏引擎。谷歌在人工智能领域又一次取得了重大进展。在最新发表的一篇论文中,研究者创建了一个神经网络,可以在不使用传统游戏引擎的情况下为经典射击游戏《毁灭战士》生成实时游戏画面。这个名为 GameNGen 的系统标志着人工智能领域向前迈出了重要一步,它在一个芯片上以每秒 20 帧的速度生成可玩的游戏画面,每帧画面都由扩散模型进行预测。可以说,这是第一个完全由神经模型驱动的游戏引擎,可以高质量地在长轨迹上与复杂环境进行实时交互。这一成就标志着人工智能首次完全模拟了一款复杂的

GameNGen 是第一个完全由神经模型驱动的游戏引擎。

谷歌在人工智能领域又一次取得了重大进展。

在最新发表的一篇论文中,研究者创建了一个神经网络,可以在不使用传统游戏引擎的情况下为经典射击游戏《毁灭战士》生成实时游戏画面。扩散模型做游戏引擎,单TPU 20 FPS模拟毁灭战士,谷歌最新GameNGen太博眼球了

这个名为 GameNGen 的系统标志着人工智能领域向前迈出了重要一步,它在一个芯片上以每秒 20 帧的速度生成可玩的游戏画面,每帧画面都由扩散模型进行预测。

可以说,这是第一个完全由神经模型驱动的游戏引擎,可以高质量地在长轨迹上与复杂环境进行实时交互。

这一成就标志着人工智能首次完全模拟了一款复杂的视频游戏,GameNGen 运行在单个张量处理单元 (TPU)(谷歌定制的人工智能加速器芯片)上,能够以惊人的效率处理《毁灭战士》复杂的 3D 环境和快节奏的动作,而且完全不需要游戏引擎的常规组件。

图片

随着这项研究的发布,大家的讨论居高不下。

图片

要知道,2018 年的画面还是模糊不清的:

图片

现在无论从画面质量还是流畅度,都表现的更好:

图片

很多人认为这项研究简直不可思议:

图片

致力于将生成式人工智能集成到游戏引擎中的开发人员表示:「人们可能还不明白这有多疯狂,这项研究是构建虚拟事物的基础,他们现在有了一条清晰的技术路径,可以使用对世界的模拟来实现连贯、交互式的长篇生成。将来,这项技术可以推广到能够获取数据的任何视频游戏。随后很可能为尚不存在的游戏生成数据。因此会有新游戏诞生。这将变得更加疯狂。」

图片

「未来,游戏中的每一个像素都将是生成的,而不是渲染的。」

图片

「这太疯狂了,即使以目前的发展速度,我也没有预料到这一切会来得如此之快。」

图片

不过,面对一众的好评,还是有人提出了相反的观点,比如这位网友表示:「虽然这项研究很有趣,但并没有解决任何问题。它没有创造任何新东西,它并不比其他任何研究更有效率,可以说是一个很好的实验,但你基本上不能用它做任何事情。」

图片

不论大家对 GameNGen 的评价如何,这项研究具体如何实现的,我们接着往下看。

论文介绍

游戏想在电脑上运行起来,要跑通这个循环:(1)收集用户输入(2)更新游戏状态(3)渲染为屏幕像素。这个高帧率运行的游戏循环为玩家创造了一种交互式虚拟世界的体验。

我们玩的游戏大多是在普通的电脑上运行的,虽然现在也有人能用计算器玩《原神》,效果也很不错。然而,无论这些设备多么先进,它们实际上只是在做一件事情:按照游戏开发者事先编写的指令来运行游戏。此外,虽然游戏行业采用不同的引擎来制作游戏,但这些引擎在工作时,比如刷新游戏里 NPC 的位置,都在遵照开发者预设的代码或配置。

近年来,生成模型在图像和视频方面取得了重大进展,比如 Stable Diffusion、Dall-E。我们可以想象,模拟电子游戏的交互世界似乎与视频生成类似。然而,交互世界模拟不仅仅是非常快速的视频生成,还要求在整个生成过程中以可用的输入动作流为条件,这打破了现有扩散模型架构的一些假设。

因此,人们自然会问:神经模型能否高质量地实时模拟复杂游戏?

本文,来自谷歌、特拉维夫大学的研究者给出了肯定的答案。

具体来说,他们展示了一款复杂的视频游戏《DOOM》(毁灭战士),可以在神经网络上(Stable Diffusion v1.4 的增强版本)实时运行,同时实现与原始游戏相当的视觉质量。虽然不是精确的模拟,但神经模型能够执行复杂的游戏状态更新,例如计算弹药、攻击敌人、破坏物体、打开门等。

图片

                                人类玩家在 GameNGen 上以 20 FPS 的速度玩《毁灭战士》。

研究者提出了 GameNGen,这是第一个完全由神经模型驱动的游戏引擎,能够在长轨迹上高质量的与复杂环境进行实时交互。GameNGen 可以在单个 TPU 上以每秒 20 帧以上的速度交互模拟经典游戏《毁灭战士》。下一帧预测实现了 29.4 的 PSNR,与有损 JPEG 压缩相当。

GameNGen 的训练分为两个阶段:(1) RL 智能体学习玩游戏并记录训练过程;(2) 训练扩散模型以根据过去帧和动作的顺序生成下一帧。条件增强功能可在长轨迹上实现稳定的自回归生成。

图片

论文地址:https://arxiv.org/pdf/2408.14837

项目主页:https://gamengen.github.io/

论文标题:DIFFUSION MODELS ARE REAL-TIME GAME ENGINES扩散模型做游戏引擎,单TPU 20 FPS模拟毁灭战士,谷歌最新GameNGen太博眼球了

方法介绍

GameNGen 是一种生成式扩散模型。在收集训练数据的过程中,研究人员首先利用一个教师模型来训练一个独立模型,使其能与游戏环境交互。

GameNGen 包含智能体和生成式两个模型,它们依序训练。如图 3 所示,在训练过程中,智能体的所有操作和观察数据都将保留在语料库图片中,并在第二阶段作为生成式模型的训练数据集。

图片

训练生成式扩散模型

研究人员首先训练了一个生成式扩散模型,作为一个智能体,它负责收集「玩游戏」时的所见所闻。

他们采用了 Stable Diffusion v1.4 这个预先训练好的文生图扩散模型。他们以轨迹图片,即动作序列图片且观察(帧)图片作为模型图片的条件,同时去除了所有文本条件。具体来说,为了以动作为条件,他们根据每个动作(例如按左键控制人物向左走)学习一个嵌入图片,记为一个 token,并用这一系列编码后的动作替换了文本的交叉注意力机制。

对于以观察为条件的部分,他们采用自动编码器 ϕ 将过去的帧转换到潜在空间,并将其与噪声潜在向量在潜在通道维度上进行合并,这一过程如图 3 所示。此外,研究人员尝试了使用交叉注意力机制来处理过去的观察数据作为条件,但并未发现明显的改进效果。

模型的 loss 计算公式如下所示:

图片其中,

图片

图片

图片

图片

图片

图片

图片是模型图片的预测输出,noise schedule图片是线性的。

使用噪声增强减轻自回归偏差

如图 4 所示,训练时使用了教师强制与自回归采样两种方法。然而,这两种方法的转换不可避免地引发了误差累积,进而导致样本质量迅速下降。为了避免这种偏差,研究人员在训练时向编码帧添加了不同量的高斯噪声来破坏上下文帧,同时将噪声水平作为输入提供给模型。

为了做到这一点,他们均匀地采样了一个最大值内的噪声水平 α,将其离散化,并针对每个噪声区间训练一个嵌入向量。这种方法能让模型学会如何在有干扰的情况下,如何纠正之前帧中的错误信息。在推理过程中,可以控制输入的噪声水平,达到最优的训练效果。在推理阶段,通过调节输入的噪声水平,可以优化模型输出的质量。值得注意的是,即便在不添加额外噪声的情况下,这种方法也能显著提升结果的表现。

图片

微调潜在解码器

由于 Stable Diffusion v1.4 的预训练自动编码器会将 8x8 像素块压缩成 4 个潜在通道,导致模型在预测游戏帧时会产生伪影。这些伪影会让一些小细节变得不够完美,比如游戏界面底部的那些小图标。针对这个问题,研究人员仅对自动编码器的潜在解码器部分进行了微调,采用 MSE(均方误差)作为目标帧像素的损失函数。

值得注意的是,这个微调过程完全独立于 U-Net,且不会对自回归生成过程产生影响。研究人员的操作仅限于潜在变量层面,而非像素层面。

实验

总体来说,就图像质量而言,本文方法在长轨迹上实现了与原始游戏相当的模拟质量。

图片

图像质量:图 5 显示了模型预测的图像和相应的真实图像之间的对比。

图片

视频质量:如图 6 所示,预测的轨迹在内容和图像质量方面与实际游戏相似。

图片

人类评估:研究者向 10 位人类评分员提供了 130 个随机短片(长度分别为 1.6 秒和 3.2 秒),并将模拟的游戏与真实游戏并列播放。评分员的任务是识别真实游戏。在这些测试中,评估者选择真实游戏而非模拟的比例分别为 58% 和 60% 

为了消除噪声增强的影响,该研究训练了一个没有添加噪声的模型。图 7 中报告了每个自回归步骤的平均指标值,总共 64 帧。

图片

相关资讯

所有判决被推翻,美最高法院:Java版权世纪大案,谷歌战胜甲骨文

美国最高法院终于在法律上认同了程序员们的技术共识:API 不应享有版权。

谷歌、Facebook频繁发现CPU内核不可靠,出现无法预测计算错误

最近谷歌和 Facebook 两大公司频繁检测到 CPU 在一些情况下会以无法预测的方式出现计算错误。

谷歌并未放弃TensorFlow,将于2023年发布新版,明确四大支柱

2015 年,谷歌大脑开放了一个名为「TensorFlow」的研究项目,这款产品迅速流行起来,成为人工智能业界的主流深度学习框架,塑造了现代机器学习的生态系统。从那时起,成千上万的开源贡献者以及众多的开发人员、社区组织者、研究人员和教育工作者等都投入到这一开源软件库上。然而七年后的今天,故事的走向已经完全不同:谷歌的 TensorFlow 失去了开发者的拥护。因为 TensorFlow 用户已经开始转向 Meta 推出的另一款框架 PyTorch。众多开发者都认为 TensorFlow 已经输掉了这场战争,并将其比