打击李飞飞空间智能，DeepMind 造出“无限世界”Genie 2：AGI 训练场

2024-12-05 09:53

DeepMind 今天发布了 Genie 2，一个超强的基础世界模型，可以生成各种 3D 环境，用来训练和评估具身AI 智能体。 Genie 2 是 DeepMind 之前推出的 2D 世界生成模型 Genie 1 的升级版，在 3D 世界生成方面取得了显著的进步。只需一张提示图片，就能生成一个可互动的 3D 世界，不管是人还是 AI，都能用键盘鼠标在里面玩耍！

DeepMind 今天发布了 Genie 2，一个超强的基础世界模型，可以生成各种 3D 环境，用来训练和评估具身AI 智能体。Genie 2 是 DeepMind 之前推出的 2D 世界生成模型 Genie 1 的升级版，在 3D 世界生成方面取得了显著的进步。 只需一张提示图片，就能生成一个可互动的 3D 世界，不管是人还是 AI，都能用键盘鼠标在里面玩耍！像是一个无限可能的“终极沙盒”！

相比李飞飞世界实验室发布的图片生成3D可交互的物理世界的世界模型，个人感觉谷歌的Genie 2要强很多，李飞飞世界模型文章李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”

DeepMind 认为 Genie 2 是解决 Embodied 智能体(具身智能体)训练难题的关键，它提供了一个安全且无限丰富的训练环境，有助于推动 Embodied AI 和 AGI 的发展

游戏，AI 进步的“催化剂”：

DeepMind 从创立之初就非常重视游戏在 AI 研究中的作用，从早期的 Atari 游戏到 AlphaGo、AlphaStar，再到现在的通用智能体，游戏一直是 DeepMind 研究的核心。但是，训练更通用的 Embodied 智能体，一直受限于训练环境的丰富性和多样性。现在，Genie 2 的出现，就是要解决这个问题！

Genie 2 有哪些神奇之处？

Genie 2 是一个世界模型，可以模拟虚拟世界，包括各种动作（例如跳跃、游泳等）的后果。它基于大规模视频数据集训练，并展现出各种涌现能力，例如物体交互、复杂角色动画、物理效果等。这些能力并非通过显式编程实现，而是在大规模训练中自发涌现的。 Genie 2 还拥有其他“超能力”：

1.物体的承受能力和相互作用： Genie 2可以模拟各种对象交互，例如气球爆裂、门打开和发射炸药桶

2.NPCs NPC： Genie 2 对其他智能体甚至与它们的复杂交互进行建模

3.智能响应玩家操作： 它能识别角色并正确移动，还能根据玩家采取的不同动作，生成不同的“反事实体验”，这意味着可以从同一初始帧生成不同的轨迹，这对于训练智能体非常有价值

4.超强记忆力： 即使场景不在视野中，它也能记住，并在再次出现时准确渲染

打击李飞飞空间智能，DeepMind 造出“无限世界”Genie 2：AGI 训练场

5.持续生成新内容： 它可以不断生成新的内容，并保持世界的一致性，最长可达一分钟

打击李飞飞空间智能，DeepMind 造出“无限世界”Genie 2：AGI 训练场

6.多样化的环境： 第一人称视角、等距视角、第三人称驾驶视角，想怎么玩就怎么玩

7.各种物理效果： 水、烟、重力、光照、反射，应有尽有

8.真实世界图像作为提示： Genie 2 的生成能力不仅仅局限于文字描述（text prompts），还可以通过输入真实的图片作为“提示”来生成对应的虚拟环境。这种功能扩展了模型的适配能力，让它可以直接从现实世界的图像中获取灵感，创造出动态、逼真的虚拟世界，例如模拟风中吹动的草或河流中流动的水

快速原型设计利器

Genie 2 还能快速创建各种交互式体验原型，方便研究人员快速实验新的环境，训练和测试 embodied AI 智能体。艺术家和设计师也可以用它快速创建原型，加速环境设计过程

AI 智能体在 Genie 2 中尽情玩耍

研究人员可以用 Genie 2 创建各种环境，让 AI 智能体在其中执行任务，评估它们的学习能力。DeepMind 展示了一个名为 SIMA 的智能体，它是 DeepMind 与游戏开发者合作开发的， 它可以在 Genie 2 生成的陌生环境中听从指令完成任务，这也有助于评估 Genie 2 生成环境的一致性

SIMA 代理旨在通过遵循自然语言指令来完成一系列 3D 游戏世界中的任务。在这里，我们使用 Genie 2 生成一个有两扇门（一扇蓝色门和一扇红色门）的 3D 环境，并向 SIMA 代理提供打开每扇门的指令。在此示例中，SIMA 通过键盘和鼠标输入控制虚拟人物，而 Genie 2 生成游戏帧

技术

Genie 2 是一个自回归的潜在扩散模型，基于大规模视频数据集训练。它采用类似大型语言模型的因果掩码，可以逐帧地自回归采样。 DeepMind 还开发了一个蒸馏版本的 Genie 2，可以在实时运行，但输出质量会有所降低

鏖战企业级市场，AI Agent如何重塑智能商业未来？

在科技的浩瀚星河中，DeepSeek掀起的技术风暴余波未平，全球首款通用Agent产品Manus的惊艳登场，再度点燃了整个行业的激情，让科技圈为之沸腾。暂且不论Manus自身性能究竟达到何种高度，其引发的从“被动应答”到“主动执行”的颠覆性范式跃迁，正以前所未有的态势，不断突破繁杂业务流程场景下智能化的边界，为企业级市场带来无限可能。近期，IDC发布的《中国AI Agent应用市场概览（2025Q1）》，首次对中国AI Agent应用的市场格局进行了系统性梳理。

4/9/2025 12:30:41 PM

吴恩达：AI智能体工作流今年将有巨大进展，可能超过下一代基础模型

下一步是智能体？随着 ChatGPT、GPT-4、Sora 的陆续问世，人工智能的发展趋势引起了广泛关注，特别是 Sora 让生成式 AI 模型在多模态方面取得显著进展。人们不禁会问：人工智能领域下一个突破方向将会是什么？今天，人工智能著名学者、斯坦福大学教授吴恩达指出：AI 智能体工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。他呼吁所有从事人工智能工作的人都关注 AI 智能体工作流，并撰写一篇博客简单阐述了原因。我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：当前，我们主要在零样

3/22/2024 2:57:00 PM

机器之心

吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果

智能体的潜力被低估了？AI 智能体是去年很火的一个话题，但是 AI 智能体到底有多大的潜力，很多人可能没有概念。最近，斯坦福大学教授吴恩达在演讲中提到，他们发现，基于 GPT-3.5 构建的智能体工作流在应用中表现比 GPT-4 要好。当然，基于 GPT-4 构建的智能体工作流效果更好。由此看来，AI 智能体工作流将在今年推动人工智能取得巨大进步，甚至可能超过下一代基础模型。这是一个值得所有人关注的趋势。这个关于智能体的演讲在社交媒体上引发了广泛关注。有人表示，这代表着 AI 发展中的范式转变，体现了从静态输出到动

4/1/2024 11:27:00 AM

机器之心

资讯热榜

纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 Ollama 支持全线的 Qwen 3 模型 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion Gemini 马斯克算法蛋白质芯片生成式代码英伟达神经网络腾讯研究计算 Anthropic Sora 3D AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集应用训练大型语言模型科技亚马逊特斯拉 2024 AGI

顶部

打击李飞飞空间智能，DeepMind 造出“无限世界”Genie 2：AGI 训练场

Genie 2 有哪些神奇之处？

快速原型设计利器

AI 智能体在 Genie 2 中尽情玩耍

技术

相关资讯

鏖战企业级市场，AI Agent如何重塑智能商业未来？

吴恩达：AI智能体工作流今年将有巨大进展，可能超过下一代基础模型

吴恩达：别光盯着GPT-5，用GPT-4做个智能体可能提前达到GPT-5的效果