AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

香港大学携手快手科技,组建科研团队,提出名为 GameFactory 的创新框架,目标是解决游戏视频生成中的场景泛化难题。该框架利用在开放域视频数据上预训练的视频扩散模型,能够创造全新且多样化的游戏场景。

香港大学携手快手科技,组建科研团队,提出名为 GameFactory 的创新框架,目标是解决游戏视频生成中的场景泛化难题。该框架利用在开放域视频数据上预训练的视频扩散模型,能够创造全新且多样化的游戏场景。

项目背景

视频扩散模型已成为强大的视频生成和物理模拟工具,在游戏引擎开发方面展现出巨大潜力。这些生成式游戏引擎的功能类似于具有动作可控性的视频生成模型,可以响应用户的键盘和鼠标等输入。

该领域的一个关键挑战是场景泛化,即创建超越现有场景的新游戏场景的能力。虽然收集大规模的动作标注视频数据集是实现这一目标最直接的方法,但这种标注成本高昂,对于开放域场景来说并不实际,这种局限性阻碍开发多功能游戏引擎,在生成多样化和新颖游戏环境方面面临诸多挑战。

现有视频生成和游戏物理学领域也涌现了诸多突破方式,其中一个潜力方向就是视频扩散模型。这些模型已经从 U-Net 架构发展到基于 Transformer 的架构,从而能够生成更逼真、时长更长的视频。

例如,Direct-a-Video 方法提供了基本的相机控制,MotionCtrl 和 CameraCtrl 则提供了更复杂的相机姿态操控。

在游戏领域,DIAMOND、GameNGen 和 PlayGen 等各种项目都尝试了特定于游戏的实现,但都存在对特定游戏和数据集过度拟合的问题,场景泛化能力有限。

项目介绍

GameFactory 利用预训练的视频扩散模型,这些模型在开放域视频数据上进行训练,使其能够生成多样化的游戏场景,突破了现有方法对特定游戏数据集的过度依赖。

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

此外,为了克服开放域先验知识与有限游戏数据集之间的域差距,GameFactory 采用了一种独特的三阶段训练策略:

  • 第一阶段:使用 LoRA(Low-Rank Adaptation)微调预训练模型,使其适应目标游戏领域,同时保留大部分原始参数。

  • 第二阶段:冻结预训练参数和 LoRA,专注于训练动作控制模块,避免风格与控制的纠缠。

  • 第三阶段:移除 LoRA 权重,保留动作控制模块参数,使系统能够在各种开放域场景中生成受控的游戏视频,而不局限于特定游戏风格。

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

研究还评估了不同控制机制的有效性,发现交叉注意力机制在处理离散控制信号(如键盘输入)方面表现优于拼接方法,而拼接方法在处理连续鼠标移动信号方面更有效,GameFactory 支持自回归动作控制,能够生成无限长度的交互式游戏视频。

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

研究人员还发布了高质量的动作标注视频数据集 GF-Minecraft,用于训练和评估 GameFactory 框架。

AI在线附上参考地址

  • GameFactory: Creating New Games with Generative Interactive Videos

  • GameFactory: Leveraging Pre-trained Video Models for Creating New Game

相关资讯

可灵视频生成可控性为什么这么好?快手又公开了四篇研究

可灵,视频生成领域的佼佼者,近来动作不断。 继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏? 揭秘背后三项重要研究》。

快手上线自研文生图大模型“可图”,消息称参数规模达十亿级

快手自研文生图大模型“可图”已于近日正式对外开放,其目前支持文生图和图生图两类功能,可用于 AI 创作图像以及 AI 形象定制。用户可通过“可图”微信小程序和网页版使用。据界面新闻报道,这也是快手首次将其自研的系列大模型对外开放。报道援引知情人士消息称,“可图”大模型的参数规模达十亿级,这些数据来自开源社区、快手内部构建和自研 AI 技术合成,覆盖了常见的千万级中文实体概念,还引入强化学习和奖励模型技术(RLHF),解决了文生图大模型在长文本和复杂语义文本输入下的效果问题。报道称,快手内部今年明确了大模型应用策略,

号称效果对标 Sora:快手视频生成大模型“可灵”开放邀测

感谢快手“可灵”视频生成大模型今日正式上线。官方表示,可灵大模型为快手 AI 团队自研,其采用 Sora 相似的技术路线,号称结合多项自研技术创新、效果对标 Sora。 据介绍,可灵大模型具备如下优势:可生成大幅度的合理运动可模拟物理世界特性具备强大概念组合能力、想象力生成视频分辨率为 1080p,时长 2 分钟(帧率 30fps),支持自由调整宽高比IT之家从快手方面获悉,可灵大模型已在快影 App 开放邀测体验。此外,基于“可灵”大模型,未来还将有更多应用方向即将落地,近期将首发“AI 唱跳”新玩法,可以同时驱