AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

香港大学携手快手科技,组建科研团队,提出名为 GameFactory 的创新框架,目标是解决游戏视频生成中的场景泛化难题。该框架利用在开放域视频数据上预训练的视频扩散模型,能够创造全新且多样化的游戏场景。

香港大学携手快手科技,组建科研团队,提出名为 GameFactory 的创新框架,目标是解决游戏视频生成中的场景泛化难题。该框架利用在开放域视频数据上预训练的视频扩散模型,能够创造全新且多样化的游戏场景。

项目背景

视频扩散模型已成为强大的视频生成和物理模拟工具,在游戏引擎开发方面展现出巨大潜力。这些生成式游戏引擎的功能类似于具有动作可控性的视频生成模型,可以响应用户的键盘和鼠标等输入。

该领域的一个关键挑战是场景泛化,即创建超越现有场景的新游戏场景的能力。虽然收集大规模的动作标注视频数据集是实现这一目标最直接的方法,但这种标注成本高昂,对于开放域场景来说并不实际,这种局限性阻碍开发多功能游戏引擎,在生成多样化和新颖游戏环境方面面临诸多挑战。

现有视频生成和游戏物理学领域也涌现了诸多突破方式,其中一个潜力方向就是视频扩散模型。这些模型已经从 U-Net 架构发展到基于 Transformer 的架构,从而能够生成更逼真、时长更长的视频。

例如,Direct-a-Video 方法提供了基本的相机控制,MotionCtrl 和 CameraCtrl 则提供了更复杂的相机姿态操控。

在游戏领域,DIAMOND、GameNGen 和 PlayGen 等各种项目都尝试了特定于游戏的实现,但都存在对特定游戏和数据集过度拟合的问题,场景泛化能力有限。

项目介绍

GameFactory 利用预训练的视频扩散模型,这些模型在开放域视频数据上进行训练,使其能够生成多样化的游戏场景,突破了现有方法对特定游戏数据集的过度依赖。

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

此外,为了克服开放域先验知识与有限游戏数据集之间的域差距,GameFactory 采用了一种独特的三阶段训练策略:

  • 第一阶段:使用 LoRA(Low-Rank Adaptation)微调预训练模型,使其适应目标游戏领域,同时保留大部分原始参数。

  • 第二阶段:冻结预训练参数和 LoRA,专注于训练动作控制模块,避免风格与控制的纠缠。

  • 第三阶段:移除 LoRA 权重,保留动作控制模块参数,使系统能够在各种开放域场景中生成受控的游戏视频,而不局限于特定游戏风格。

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

研究还评估了不同控制机制的有效性,发现交叉注意力机制在处理离散控制信号(如键盘输入)方面表现优于拼接方法,而拼接方法在处理连续鼠标移动信号方面更有效,GameFactory 支持自回归动作控制,能够生成无限长度的交互式游戏视频。

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

AI 造梦师:香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题

研究人员还发布了高质量的动作标注视频数据集 GF-Minecraft,用于训练和评估 GameFactory 框架。

AI在线附上参考地址

  • GameFactory: Creating New Games with Generative Interactive Videos

  • GameFactory: Leveraging Pre-trained Video Models for Creating New Game

相关资讯

快手可灵AI 1月全球访问用户环比增长113%

根据公开数据显示,今年1月,快手可灵AI全球月访问用户总数环比增长113%。 瑞银近期表示,在线娱乐与教育乃是 AI 落地的核心场景,快手作为应用层的标杆企业,其自主研发的可灵 AI 在全球视频生成模型领域占据领先地位。 前不久可灵AI正式上线多图参考参考功能,支持同时参考多个主体。

可灵视频生成可控性为什么这么好?快手又公开了四篇研究

可灵,视频生成领域的佼佼者,近来动作不断。 继发布可灵 1.6 后,又公开了多项研究揭示视频生成的洞察与前沿探索 ——《快手可灵凭什么频繁刷屏? 揭秘背后三项重要研究》。

快手搜索AI升级:DeepSeek R1全面接入,搜索体验迎来质变!

快手宣布,其搜索功能已全面接入DeepSeek R1大模型能力,此举旨在显著提升搜索效果和用户体验,并进一步推动用户活跃度的增长。 同时,快手也着眼于未来,积极探索智能搜索场景的商业化变现潜力。 此前,快手的AI内容创作平台“可灵AI”已率先整合DeepSeek R1。