刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)AI公司年底要冲业绩了! 一觉醒来,OpenAI宣布了未来12天的直播活动,而老对手谷歌直接发布了Genie 2,宣布在世界模型方面又迈出重要一步! 图片但,至少今天是谷歌更胜一筹——Genie 2是在太令人印象深刻了!

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

AI公司年底要冲业绩了!

一觉醒来,OpenAI宣布了未来12天的直播活动,而老对手谷歌直接发布了Genie 2,宣布在世界模型方面又迈出重要一步!

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

但,至少今天是谷歌更胜一筹——Genie 2是在太令人印象深刻了!用Google DeepMind首席执行官Demis Hassabis话来说:“世界模型正在成形。”

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

给 Genie 2 一张照片,它给你一个可以交互的世界!

无论是创造一个飞船上的游戏世界,还是想变身行走在未来世界的机器人,都立马能安排,想玩什么自己点!

Genie 2 即时生成新内容的时间也大幅扩展了,足足给了一分钟!

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手

可以看到,Genie 2生成的虚拟世界交互逻辑非常丝滑。

不仅如此,人类和AI Agents(DeepMind推出的游戏代理SIMA)都可以参与,以后不愁具身智能没有地方训练了。

“Genie 2 能够让未来的 Agents 在无限制的新颖世界课程中进行训练和评估。这项研究也为原型化互动体验的新型创意工作流程铺平了道路,”Google DeepMind在其博客文章中写到。

Genie 2 不只让我们看到了“大模型没有撞墙”一个有力论据,也看到了谷歌抢先一个身位通向AGI的可能!

1.世界模型正在成形

在前版Genie 1的基础上,Genie 2从2D环境的扩展到了3D。Genie 2基于大规模视频数据集训练,采用自回归潜在扩散技术,根据用户动作逐帧生成画面。

Genie 2全新的交互让我们看到了世界模型的雏形:模拟物理交互、建模复杂动画、创建具有真实物理特性、光照效果和物体交互的环境。

比起AI视频所展示的,我们会感觉到Genie 2更懂这个世界了。来点案例看看:

枪响之后,油罐桶会爆炸:

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手

模型对于重力的领悟,汽车是会坠落悬崖的:

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手

汽车驶入水路段,轮胎后被激起的水花:

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手

还有各种场景下的烟雾、光照、屋里镜子的反光随着视角的变化,都能感受到Genie 2的突破!

2.Genie 2的世界:人类和 AI 都能参与

我们在3月份介绍过,来自DeepMind的游戏“搭子”SIMA,一个从多个3D游戏中训练的AI Agent。

能完成600项基本游戏操作的SIMA,也在Genie 2中挑战了一把,再次展现了高水平的泛化能力。

领导Genie 2项目的 Jack Parker-Holder 说, 他们使用了Genie 2创建了一个神秘“三拱门”场景,然后使用Prompt控制AI进入哪个通道,然后取得了成功!

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

也就是说,SIMA证明了,AI在这个虚拟世界,是能够遵循语言指令,进行各种训练的!

Genie 2生成的无限世界,多样性和复杂性可以拉满,Agents缺少培训场景的问题大大解决了。而且Genie 2本身也可以使用真实照片做场景,工厂、农田、矿场等等场地都可以一键生成,让AI为迎接现实世界的复杂性做足准备。

值得一提的是,Genie 2 人类和AI都能操作的模式,可能会在未来实现共同的操作和交互。甚至能彻底改变我们测试和完善人工智能系统的方式,将人类的创造力与人工智能解决问题的可能性在虚拟世界中进行融合。

3.Genie 2的两位领导者

领导Genie 2项目的 Jack Parker-Holder,在谷歌已经工作了两年半的时间。

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

他非常看重Genie 2在具身智能训练上的潜力。

这也和他写在简介中的目标高度一致:“我的目标是设计出永不停止生产新的有趣事物的系统……也许甚至是 AGI:)”。

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

Genie 2的技术 leader是Stephen Spencer。Spencer 于 2018 年 6 月加入 DeepMind 担任研究科学家,22年合作发表的重要论文《通过算法蒸馏进行上下文强化学习》,被引用超百次。

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

4.写在最后:OpenAI如何应战?

OpenAI能否截胡成功?

还是很有可能!毕竟是12天活动的狂轰乱炸!

而且大家纷纷猜测Sora是不是要广泛可用了,也算我们这一整年度的期待有了一个尾声。

毕竟,作为实验室的Deepmind,所发布的Genie 2还远远不是一个产品形态。如果OpenAI能给用户更多开箱即用的魔法,势必会在这个年尾获得更多的关注。

网友对Genie 2的评价:虽然这令人印象深刻,但看起来仍像是一个非常早期的原型。从整体上看,它似乎并不是一个独立的产品,而是面向通用代理的更广泛研发项目的一部分…… 我甚至怀疑他们是否已经为这个项目建立了任何生产化的建模管道,而且可以肯定的是,我们不会在短期内获得开放的访问权限。

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

那么,OpenAI可能发布什么呢?

GPT-5、Sora、o1-full是呼声最高的系列了。

在评论区有人一本正经的在做推测,而有人直接把画风切换到了2045年。

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

12天的活动,营销鬼才奥特曼到底能给我们带来多少干货,值得拭目以待!

永远面向未来的奥特曼,已经在做明年的剧透了,他对《纽约时报》说:2025年的AI系统将让我们惊掉下巴。

刷屏了!Genie 2开启文生游戏时代,可交互的世界模型震撼登场!背后团队曝光;OpenAI年底冲业绩,12天直播能否截胡老对手图片

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

给TA打赏
共{{data.count}}人
人已打赏
理论

DeepMind大模型再登Nature:8分钟预测15日天气,准确度超顶尖物理模型,已开源

2024-12-5 12:26:53

理论

英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜

2024-12-5 13:50:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索