世界模型
DeepMind闭关修炼「我的世界」,自学成才挖钻登Nature!人类玩家瑟瑟发抖
AI又进化了,在没有任何人类数据的参与下,自己玩《我的世界》还能找到钻石! 在刚刚登上Nature的论文中,谷歌DeepMind的智能体通过纯·自我学习,顺利完成了收集钻石的任务。 图片论文链接:,DeepMind的计算机科学家Danijar Hafner表示:「Dreamer是一个重要的里程碑,标志着AI又朝着通用人工智能前进了一大步。
4/7/2025 3:00:00 AM
新智元
CityDreamer4D: 下一个世界模型,何必是视频生成模型?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
1/28/2025 1:19:00 PM
机器之心
JHU 陈杰能:世界模型+心智模型,让具身智能体拥有「想象力」
作者 | 赖文昕编辑 | 陈彩娴近日,马尔奖得主、约翰霍普金斯大学教授 Alan Yuille 的团队发布了一项世界模型方向的重磅工作——GenEx,引起了具身智能领域的广泛讨论与关注。 作为李飞飞初创公司 World Labs 发布的同期工作,生成模型 GenEx 的特别之处在于它能让 AI 具有"想象力",使智能体通过想象出来的观测探索生成式世界。 受到心智模型的启发,GenEx 希望在一定程度上试图模拟人类大脑中对世界的认知方式和理解机制,以实现更智能、更灵活的人工智能系统。
12/30/2024 3:05:00 PM
赖文昕
出手即王炸?照片级真实度生成式世界模型,还获得皮克斯和Jeff Dean投资
世界模型正在爆发! 近段时间,世界模型的相关研究成果正如雨后春笋版不断涌现,光是我们报道过的就已有南大周志华团队的世界模型 Whale、Yann LeCun 团队的世界模型研究、李飞飞 World Labs 的空间智能研究、谷歌的强大世界模型 Genie 2 以及刚刚开源的像是能模拟万物的生成式物理引擎 Genesis。 事实上,在 Genesis 开源发布的差不多时间,一家名为 Odyssey 的创业公司也向世界介绍了他们的世界模型 Explorer。
12/20/2024 1:36:00 PM
机器之心
18k个视频、专为自动驾驶世界模型设计,DrivingDojo数据集来了
AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
12/9/2024 2:12:00 PM
机器之心
LeCun团队新作:在世界模型中导航
现实世界版的 Genie-2? 最近,世界模型(World Models)似乎成为了 AI 领域最热门的研究方向。 继 World Labs(李飞飞)、谷歌 DeepMind 接连发布自己的世界模型研究之后,Meta FAIR 的 Yann LeCun 团队也加入了战场,也在同一周之内发布了导航世界模型(Navigation World Models/NWM)。
12/7/2024 5:04:00 PM
机器之心
谷歌世界模型爆发:单张图生成可玩3D世界,还要和马斯克一起做AI游戏
昨晚,世界模型向前迈出了一大步! Google DeepMind 震撼宣布了他们的新一代世界模型 Genie 2,其可根据一张图生成可供人类或 AI 智能体游玩的无限 3D 世界。 消息发布后,好评与震惊如潮水般涌现。
12/5/2024 12:01:00 PM
机器之心
WHALE来了,南大周志华团队做出更强泛化的世界模型
世界模型又出新进展了,来自国内机构。 人类能够在脑海中设想一个想象中的世界,以预测不同的动作可能导致不同的结果。 受人类智能这一方面的启发,世界模型被设计用于抽象化现实世界的动态,并提供这种「如果…… 会怎样」的预测。
11/13/2024 2:32:00 PM
机器之心
世界模型新突破!极佳科技提出DriveDreamer4D,首次利用世界模型增强4D驾驶场景重建效果
近日,极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出DriveDreamer4D,是首个利用世界模型增强 4D 驾驶场景重建效果的工作。 DriveDreamer4D 可以大幅提升多种自动驾驶 4D 重建算法的效果,在 user study 实验中获得了超过 80% 的偏好投票,为走向空间智能和 4D 世界模型迈出了坚实的一步。 论文链接:::。
10/28/2024 1:11:00 PM
机器之心
北大陈宝权教授:从图形计算到世界模型
世界模型是当前的热点话题。我这里分享的题目是 “图形计算到世界模型”,作为抛砖引玉,试图挖掘和展示图形计算和世界模型两者之间可能建立的紧密内在联系。GAMES 这个平台上的报告,主要是为了交流,鼓励大胆提出想法,引发讨论,而不是单纯的宣读一些既有成果。所以,我为此做了一些调研和思考,期待通过这个报告,能激发更多关于图形计算如何助力构建更精准世界模型的深入讨论。近年来,AIGC 领域的大模型技术取得了迅猛的发展,引发了广泛的关注与讨论。当观察到仅通过简单的文字输入,这些模型便能生成连贯且有逻辑的场景时,一个自然而然的
9/30/2024 2:06:00 PM
机器之心
最晚明年上半年落地L3:理想端到端自动驾驶,性能大幅提升
最近一段时间,生成式 AI 技术兴起,众多造车新势力都在探索视觉语言模型与世界模型的新方法,端到端的智能驾驶新技术似乎成为了共同的研究方向。上个月,理想汽车发布了端到端 VLM 视觉语言模型 世界模型的第三代自动驾驶技术架构。此架构已推送千人内测,将智能驾驶行为拟人化,提高了 AI 的信息处理效率,增强了对复杂路况的理解和应对能力。李想曾在公开的分享中表示,面对大部分算法难以识别和处理的罕见驾驶环境,VLM(Visual Language Model)即视觉语言模型可以系统地提升自动驾驶的能力,这种方法从理
8/6/2024 6:18:00 PM
李泽南
世界模型也扩散!训练出的智能体竟然不错
在图像生成领域占据主导地位的扩散模型,开始挑战强化学习智能体。世界模型提供了一种以安全且样本高效的方式训练强化学习智能体的方法。近期,世界模型主要对离散潜在变量序列进行操作来模拟环境动态。然而,这种压缩为紧凑离散表征的方式可能会忽略对强化学习很重要的视觉细节。另一方面,扩散模型已成为图像生成的主要方法,对离散潜在模型提出了挑战。受这种范式转变的推动,来自日内瓦大学、爱丁堡大学、微软研究院的研究者联合提出一种在扩散世界模型中训练的强化学习智能体 —— DIAMOND(DIffusion As a Model Of e
5/24/2024 2:24:00 PM
机器之心
人大 Sora 思辩:Sora 到底懂不懂物理世界?
Sora 发布至今,虽然仍未正式对外开放,但对其技术细节、切实影响的讨论从未停歇。 讨论的背后,是为了探索人工智能的更本质问题。 对旧有视觉生成思路的检验和校正,是 Sora 带来的直观影响。
3/23/2024 6:39:00 PM
王悦
Pieter Abbeel 新工作“大世界模型”:轻松玩转1小时长视频,一对一QA视频内容细节
作者:赖文昕编辑:陈彩娴自3天前Sora发布以来,由图灵奖得主、Meta首席科学家Yann LeCun提出的“世界模型”又一次引起了广泛关注。 “世界模型”作为Sora的一大核心亮点,被OpenAI写在技术报告中。 但Sora是否真的如Open AI所说,是一个世界模型,却引起了行业内的争论。
3/7/2024 3:13:00 PM
赖文昕
怒斥Sora之后,LeCun放出「视觉世界模型」论文,揭示AI学习物理世界的关键
Sora 的发布让整个 AI 领域为之狂欢,但 LeCun 是个例外。面对 OpenAI 源源不断放出的 Sora 生成视频,LeCun 热衷于寻找其中的失误:归根结底,LeCun 针对的不是 Sora,而是 OpenAI 从 ChatGPT 到 Sora 一致采用的自回归生成式路线。LeCun 一直认为, GPT 系列 LLM 模型所依赖的自回归学习范式对世界的理解非常肤浅,远远比不上真正的「世界模型」。所以,一遇到「Sora 是世界模型」的说法,LeCun 就有些坐不住:「仅仅根据 prompt 生成逼真视频并
3/5/2024 11:53:00 AM
机器之心
Sora 发布两周后,关于 Sora 的一些冷思考
两周前的今天,北京时间 2 月 16 日,OpenAI 、谷歌、Meta、Stability 都在这一时间节点前后发布文生视频模型成果,但只有 OpenAI 的 Sora 在这场角逐中破圈而出,成功抢占全球的注意力。 可以说,Sora 打响了文生视频大模型行业 2024 年的第一炮。 面对 Sora 着实优异的视频生成效果,短时间内 AIGC 行业内掀起一轮又一轮讨论,一方面,没人想到 OpenAI 的动作如此之快,令人激动兴奋的同时也来不及招架,另一方面,也都在为其 “60秒超长长度”、“单视频多角度镜头”和“世界模型”的等炸裂的效果震惊,并声称会迎来行业洗牌。
3/4/2024 11:48:00 AM
林军
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
本地部署DeepSeek+DiFy平台构建智能体应用
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
韩国初创公司 RLWRLD 获 1480 万美元融资,致力于机器人基础模型开发
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
谷歌 Gemini AI 新功能 Circle Screen 曝光:圈选截屏特定区域,实现精准搜索
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
苹果
深度学习
AI视频
模态
人形机器人
驾驶
xAI
文本
搜索
字节跳动
大语言模型
Copilot
Claude
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练