AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

理论
11月21日
编辑

量子位

人类离电影《黑客帝国》的场景，似乎又近了一步。因为就在刚刚，一个与电影同名的、首个AI基础世界模拟器——The Matrix问世。它已经可以实现生成无限长、高保真720p真实场景视频，而且还是可以实时交互的那种！

人类离电影《黑客帝国》的场景，似乎又近了一步。

因为就在刚刚，一个与电影同名的、首个AI基础世界模拟器——The Matrix问世。

它已经可以实现生成无限长、高保真720p真实场景视频，而且还是可以实时交互的那种！

话不多说，直接来看一个长达14分钟的效果：

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

而这个时长还只是demo展示的长度，The Matrix可以做到在长达1个小时的时间里，穿梭沙漠、草原、水体和城市等景观。

在此期间，还可以通过按键W（前）、S（后）、A（左）和D（右）来实时控制——

每秒16帧，帧帧可控。

The Matrix项目是由全华人团队打造，作者分别来自阿里巴巴、香港大学、滑铁卢大学和加拿大AI研究机构Vector Insititute。

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

而之所以团队将研究取名为The Matrix，是因为其效果和内容与电影《黑客帝国》中的一句话类似：

这是你熟悉的世界；这是20世纪末的世界。它现在只存在于我们称之为Matrix的神经交互模拟系统中。This is the world that you know; the world as it was at the end of the 20th century. It exists now only as part of a neural-interactive simulation that we call the Matrix.

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

网友们看罢，评论区已经一片“crazy”、“amazing”的声音：

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

但除了无限生成、效果逼真和实时可控之外，The Matrix还解锁了一项能力。

零样本，就可以直接泛化

The Matrix的训练数据主要由两部分组成。

首先是通过像《极限竞速：地平线》和《赛博朋克 2077》这样的3A游戏的监督数据来进行训练；其次再辅以大量的现实世界场景（如东京街头）的无监督视频。

而与以往研究不同的是，The Matrix可以在没有上述数据学习的情况下（零样本），可以理解和预测不同环境中物体的行为和交互。

例如下面这个“宝马X3在办公环境中行驶”的场景，这是在游戏数据和现实世界数据中都未出现过的环境：

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

再如“车在水里游泳”：

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

The Matrix还支持以第一视角的方式来看世界：

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

就连真实世界中的物体，甚至人物，都是可控的：

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

从实验结果上来看，与近期主流的游戏仿真生成模型比较，不论是时长还是效果等，The Matrix都已经达到了领先的效果：

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

怎么做到的？

从技术角度来看，The Matrix的核心由三大模块组成。

首先是交互模块 （Interactive Module）。

这个模块用于理解用户的输入（如键盘输入）并将其整合到视频生成中，实现帧级别的精确控制。

为了增强模型的交互性，研究人员对一个预训练的 Diffusion Transformer (DiT) 模型进行调优，使得交互模块不仅能够应对已知数据，还能泛化到无标签的数据。

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

其次是移窗去噪过程模型 （Shift-Window Denoising Process Model, Swin-DPM）。

这个新颖的扩散模型通过使用滑动的时间窗口来处理长时间依赖关系，从而实现无限长视频的生成。

该模型能够以连续、平滑的方式生成视频，解决了传统模型在长序列生成时遇到的记忆瓶颈。

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

最后是流一致性模型 （Stream Consistency Model, SCM）。

为了实现实时生成，The Matrix 集成了一种名为流一致性模型的技术，使得推理速度加快 10-20 倍，最终实现 8-16 FPS 的实时生成速度。

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

此外，研究人员还开发了一个名为GameData的平台，用于自动捕获游戏中的状态数据和视频帧，并生成标注的动作帧数据集。

这个数据集结合了真实世界的视频数据，既帮助模型学习具体动作控制，又增强了模型的视觉质量和域泛化能力。

团队介绍

正如我们刚才提到的，The Matrix的作者均为华人。

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

其中，项目负责人主要是两位，分别是Hongyang Zhang和Ruili Feng。

Hongyang Zhang目前是滑铁卢大学的助理教授，带领SafeAI Lab；其主要研究方向包括基础模型的研究。

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

另一位则是来自阿里巴巴的Ruili Feng。

若是大家对研究感兴趣，可戳下方链接查看详情。

给TA打赏

共{{data.count}}人

人已打赏

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

2024-11-21 13:17:34

OpenAI薪酬大曝光！奥特曼身价145亿，年薪只有55万

2024-11-21 13:36:35

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部