AI在线 AI在线

打击李飞飞空间智能,DeepMind 造出“无限世界”Genie 2:AGI 训练场

作者:AI寒武纪
2024-12-05 09:53
DeepMind 今天发布了 Genie 2,一个超强的基础世界模型,可以生成各种 3D 环境,用来训练和评估具身AI 智能体。 Genie 2 是 DeepMind 之前推出的 2D 世界生成模型 Genie 1 的升级版,在 3D 世界生成方面取得了显著的进步。  只需一张提示图片,就能生成一个可互动的 3D 世界,不管是人还是 AI,都能用键盘鼠标在里面玩耍!

DeepMind 今天发布了 Genie 2,一个超强的基础世界模型,可以生成各种 3D 环境,用来训练和评估具身AI 智能体。Genie 2 是 DeepMind 之前推出的 2D 世界生成模型 Genie 1 的升级版,在 3D 世界生成方面取得了显著的进步。 只需一张提示图片,就能生成一个可互动的 3D 世界,不管是人还是 AI,都能用键盘鼠标在里面玩耍!像是一个无限可能的“终极沙盒”!

打击李飞飞空间智能,DeepMind 造出“无限世界”Genie 2:AGI 训练场

相比李飞飞世界实验室发布的图片生成3D可交互的物理世界的世界模型,个人感觉谷歌的Genie 2要强很多,李飞飞世界模型文章李飞飞「世界实验室」重磅推出 AI“造物主”:一张图片生成 3D 世界“任意门”

DeepMind 认为 Genie 2 是解决 Embodied 智能体(具身智能体)训练难题的关键,它提供了一个安全且无限丰富的训练环境,有助于推动 Embodied AI 和 AGI 的发展

游戏,AI 进步的“催化剂”:

DeepMind 从创立之初就非常重视游戏在 AI 研究中的作用,从早期的 Atari 游戏到 AlphaGo、AlphaStar,再到现在的通用智能体,游戏一直是 DeepMind 研究的核心。但是,训练更通用的 Embodied 智能体,一直受限于训练环境的丰富性和多样性。现在,Genie 2 的出现,就是要解决这个问题!

Genie 2 有哪些神奇之处?

Genie 2 是一个世界模型,可以模拟虚拟世界,包括各种动作(例如跳跃、游泳等)的后果。它基于大规模视频数据集训练,并展现出各种涌现能力,例如物体交互、复杂角色动画、物理效果等。这些能力并非通过显式编程实现,而是在大规模训练中自发涌现的。 Genie 2 还拥有其他“超能力”:

1.物体的承受能力和相互作用: Genie 2可以 模拟各种对象交互,例如气球爆裂、门打开和发射炸药桶

图片

2.NPCs NPC: Genie 2 对其他智能体甚至与它们的复杂交互进行建模

图片

3.智能响应玩家操作: 它能识别角色并正确移动,还能根据玩家采取的不同动作,生成不同的“反事实体验”,这意味着可以从同一初始帧生成不同的轨迹,这对于训练智能体非常有价值

图片

4.超强记忆力: 即使场景不在视野中,它也能记住,并在再次出现时准确渲染

打击李飞飞空间智能,DeepMind 造出“无限世界”Genie 2:AGI 训练场

5.持续生成新内容: 它可以不断生成新的内容,并保持世界的一致性,最长可达一分钟

打击李飞飞空间智能,DeepMind 造出“无限世界”Genie 2:AGI 训练场

6.多样化的环境: 第一人称视角、等距视角、第三人称驾驶视角,想怎么玩就怎么玩

图片

7.各种物理效果: 水、烟、重力、光照、反射,应有尽有

图片

8.真实世界图像作为提示: Genie 2 的生成能力不仅仅局限于文字描述(text prompts),还可以通过输入真实的图片作为“提示”来生成对应的虚拟环境。这种功能扩展了模型的适配能力,让它可以直接从现实世界的图像中获取灵感,创造出动态、逼真的虚拟世界,例如模拟风中吹动的草或河流中流动的水

图片

快速原型设计利器

Genie 2 还能快速创建各种交互式体验原型,方便研究人员快速实验新的环境,训练和测试 embodied AI 智能体。艺术家和设计师也可以用它快速创建原型,加速环境设计过程

图片

AI 智能体在 Genie 2 中尽情玩耍

研究人员可以用 Genie 2 创建各种环境,让 AI 智能体在其中执行任务,评估它们的学习能力。DeepMind 展示了一个名为 SIMA 的智能体,它是 DeepMind 与游戏开发者合作开发的, 它可以在 Genie 2 生成的陌生环境中听从指令完成任务,这也有助于评估 Genie 2 生成环境的一致性

SIMA 代理旨在通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。在这里,我们使用 Genie 2 生成一个有两扇门(一扇蓝色门和一扇红色门)的 3D 环境,并向 SIMA 代理提供打开每扇门的指令。在此示例中,SIMA 通过键盘和鼠标输入控制虚拟人物,而 Genie 2 生成游戏帧

图片

技术

Genie 2 是一个自回归的潜在扩散模型,基于大规模视频数据集训练。它采用类似大型语言模型的因果掩码,可以逐帧地自回归采样。 DeepMind 还开发了一个蒸馏版本的 Genie 2,可以在实时运行,但输出质量会有所降低

图片

相关标签:

相关资讯

鏖战企业级市场,AI Agent如何重塑智能商业未来?

在科技的浩瀚星河中,DeepSeek掀起的技术风暴余波未平,全球首款通用Agent产品Manus的惊艳登场,再度点燃了整个行业的激情,让科技圈为之沸腾。 暂且不论Manus自身性能究竟达到何种高度,其引发的从“被动应答”到“主动执行”的颠覆性范式跃迁,正以前所未有的态势,不断突破繁杂业务流程场景下智能化的边界,为企业级市场带来无限可能。 近期,IDC发布的《中国AI Agent应用市场概览(2025Q1)》,首次对中国AI Agent应用的市场格局进行了系统性梳理。
4/9/2025 12:30:41 PM

吴恩达:AI智能体工作流今年将有巨大进展,可能超过下一代基础模型

下一步是智能体?随着 ChatGPT、GPT-4、Sora 的陆续问世,人工智能的发展趋势引起了广泛关注,特别是 Sora 让生成式 AI 模型在多模态方面取得显著进展。人们不禁会问:人工智能领域下一个突破方向将会是什么?今天,人工智能著名学者、斯坦福大学教授吴恩达指出:AI 智能体工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。他呼吁所有从事人工智能工作的人都关注 AI 智能体工作流,并撰写一篇博客简单阐述了原因。我们对博客内容进行了不改变原意的编译、整理,以下是博客内容:当前,我们主要在零样
3/22/2024 2:57:00 PM
机器之心

吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果

智能体的潜力被低估了?AI 智能体是去年很火的一个话题,但是 AI 智能体到底有多大的潜力,很多人可能没有概念。最近,斯坦福大学教授吴恩达在演讲中提到,他们发现,基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。当然,基于 GPT-4 构建的智能体工作流效果更好。由此看来,AI 智能体工作流将在今年推动人工智能取得巨大进步,甚至可能超过下一代基础模型。这是一个值得所有人关注的趋势。这个关于智能体的演讲在社交媒体上引发了广泛关注。有人表示,这代表着 AI 发展中的范式转变,体现了从静态输出到动
4/1/2024 11:27:00 AM
机器之心
  • 1