了解世界还是预测未来?一场关于自动驾驶世界模型的祛魅(清华最新综述)!

写在前面 & 笔者的个人理解清华大学最新的综述。 由于多模态大语言模型(如GPT-4)和视频生成模型(如Sora)的进步,世界模型的概念受到了极大的关注,这是追求通用人工智能的核心。 这项调查对世界模型的文献进行了全面的回顾。

写在前面 & 笔者的个人理解

清华大学最新的综述。由于多模态大语言模型(如GPT-4)和视频生成模型(如Sora)的进步,世界模型的概念受到了极大的关注,这是追求通用人工智能的核心。这项调查对世界模型的文献进行了全面的回顾。一般来说,世界模型被视为理解世界现状或预测其未来动态的工具。本综述对世界模型进行了系统分类,强调了两个主要方向:

  • 构建内部表征以理解世界的机制;
  • 预测未来状态以模拟和指导决策。

首先,我们考察这两个方向的当前进展。然后探讨了世界模型在关键领域的应用,包括自动驾驶、机器人和社会模拟,重点是每个领域如何利用这些方面。最后,我们概述了主要挑战,并提供了对未来潜在研究方向的见解。

简介

科学界长期以来一直渴望开发一种统一的模型,以复制其在追求通用人工智能(AGI)的过程中的基本世界动态。2024年,多模态大语言模型(LLM)和Sora的出现加剧了围绕此类世界模型的讨论。虽然这些模型展示了捕捉世界知识方面的新兴能力,例如Sora生成的视频,这些视频似乎完全符合物理定律,但关于它们是否真正符合综合世界模型的问题仍然存在。因此,当我们展望人工智能时代的新突破时,对世界模型研究的最新进展、应用和未来方向进行系统回顾是及时和必要的。

世界模型的定义仍然是一个持续争论的主题,通常分为两个主要观点:理解世界和预测未来。如图1所示,Ha和Schmidhuber的早期工作侧重于抽象外部世界,以深入了解其潜在机制。相比之下,LeCun认为,世界模型不仅应该感知和模拟现实世界,还应该具备设想未来可能状态的能力,为决策提供信息。Sora等视频生成模型代表了一种专注于模拟未来世界演变的方法,因此与世界模型的预测方面更加一致。这就提出了一个问题,即世界模型应该优先考虑理解当前状态还是预测未来状态。本文从这两个角度对文献进行了全面回顾,重点介绍了关键方法和挑战。

图片

世界模型的潜在应用涵盖了广泛的领域,每个领域对理解和预测能力都有不同的要求。例如,在自动驾驶中,世界模型需要实时感知道路状况并准确预测其演变,特别关注即时的环境意识和复杂趋势的预测。对于机器人来说,世界模型对于导航、物体检测和任务规划等任务至关重要,需要精确理解外部动态和生成交互式和实体环境的能力。在虚拟社会系统的模拟领域,世界模型必须捕捉和预测更抽象的行为动态,如社会互动和人类决策过程。因此,对这些能力的进展进行全面审查,同时探索未来的研究方向和趋势,是及时和必要的。

现有的世界模型调查一般可分为两类,如表1所示。第一类主要侧重于描述世界模型在特定领域的应用,如视频处理和生成、自动驾驶和基于代理的应用。第二类侧重于从能够处理各种模态数据的多模态模型到世界模型的技术转型。然而,这些论文往往缺乏对世界模型的精确构成以及不同的现实世界应用对这些模型的要求的系统研究。在这篇文章中,我们的目的是正式定义和分类世界模型,回顾最近的技术进展,并探索它们的广泛应用。

本次调查的主要贡献可以概括如下:(1)我们提出了一种新的世界模型分类系统,该系统围绕两个主要功能构建:构建隐式表示以理解外部世界的机制和预测外部世界的未来状态。第一类侧重于开发学习和内化世界知识以支持后续决策的模型,而后者则强调从视觉感知中增强物理世界的预测和模拟能力。(2)基于这种分类,我们对包括自动驾驶机器人和社会模拟在内的各种关键应用领域如何强调世界模型的不同方面进行了分类。(3)我们强调了能够适应更广泛实际应用的世界模型的未来研究方向和趋势。

图片

背景和分类

在本节中,我们探讨了文献中世界模型的演变概念,并将构建世界模型的努力分为两个不同的分支:内部表示和未来预测。

2018年,Ha等人首次将世界模型的概念系统地引入人工智能界。本文将世界模型概念的起源追溯到1971年建立的“心理模型”的心理学原理,该原理提出人类将外部世界抽象为简单的元素及其相互关系来感知它。这一原理表明,当从深层次的内部角度看时,我们对世界的描述通常涉及构建一个抽象的表示,不需要详细的描述。基于这一概念框架,作者引入了一个受人类认知系统启发的代理模型,如图1所示。在这个开创性的模型中,代理从现实世界环境中接收反馈,然后将其转换为一系列训练模型的输入。该模型擅长模拟外部环境中特定行动后的潜在结果。本质上,它创建了一个对未来世界潜在进化的心理模拟,并根据这些状态的预测结果做出决策。这种方法与基于模型的强化学习(MBRL)方法非常相似,其中两种策略都涉及模型生成外部世界的内部表示。这些表示有助于在现实世界中导航和解决各种决策任务。

在2022年关于自主机器智能发展的富有远见的文章中,Yann LeCun介绍了联合嵌入预测架构(JEPA),这是一个反映人脑结构的框架。如图1所示,JEPA包括一个处理感官数据的感知模块,以及一个评估这些信息的认知模块,有效地体现了世界模型。该模型允许大脑评估行为,并确定最适合现实世界应用的反应。LeCun的框架很有趣,因为它结合了双系统概念,反映了“快”和“慢”的思维。系统1涉及直观、本能的反应:在没有世界模型的情况下快速做出决定,比如本能地躲避迎面而来的人。相比之下,系统2采用深思熟虑、经过计算的推理,考虑世界的未来状态。它超越了即时的感官输入,模拟了潜在的未来场景,比如预测未来十分钟房间里的事件并相应地调整行动。这种程度的远见需要构建一个世界模型,根据预期的环境动态和演变有效地指导决策。在这个框架中,世界模型对于理解和表示外部世界至关重要。它使用潜在变量对世界状态进行建模,这些变量在过滤冗余的同时捕获关键信息。这种方法可以高效、简洁地表示世界,促进对未来情景的最佳决策和规划。

模型捕捉世界知识的能力对于其在各种现实世界任务中的有效表现至关重要。从2023年开始,在最近一波关于大语言模型的研究中,有几项研究证明了潜在世界知识的存在。换句话说,这些模型捕获了直观的知识,包括空间和时间理解,这使它们能够对现实世界的场景进行预测。此外,LLM能够通过认知地图对外部世界进行建模,正如最近的研究所表明的那样,揭示了嵌入其中的大脑样结构。这些模型甚至可以根据先前的经验学习预测未来的事件,从而增强它们在现实世界中的实用性和适用性。

上述世界模型主要代表了对外部世界的隐式理解。然而,在2024年2月,OpenAI引入了Sora模型,这是一种视频生成模型,在很大程度上被认为是一种世界模拟器。Sora输入真实世界的视觉数据,并输出预测未来世界演变的视频帧。值得注意的是,它展示了卓越的建模能力,例如在相机移动和旋转过程中保持3D视频模拟的一致性。它还可以产生物理上合理的结果,比如在汉堡包上留下咬痕,并模拟数字环境,例如在Minecraft游戏中渲染第一人称视图。这些能力表明,Sora不仅模仿了模拟场景中的真实世界动态,还对其进行了建模,专注于真实地模拟动态世界变化,而不仅仅是表示静态世界状态。

无论是专注于学习外部世界的内部表征还是模拟其运作原理,这些概念都凝聚成了一个共同的共识:世界模型的基本目的是理解世界的动态并预测未来的情景。从这个角度来看,我们对世界模型的最新进展进行了彻底的研究,通过以下镜头对其进行分析,如图1所示。

  • 外部世界的隐式表征:本研究类别构建了一个环境变化模型,以实现更明智的决策,最终旨在预测未来状态的演变。它通过将外部现实转化为将这些元素表示为潜在变量的模型来培养隐式的理解。此外,随着大语言模型(LLM)的出现,这些模型对世界知识的详细描述能力大大增强了以前集中在传统决策任务上的努力。我们进一步关注将世界知识整合到现有模型中。
  • 外部世界的未来预测:我们最初探索模拟外部世界的生成模型,主要使用视觉视频数据。这些作品强调了所生成视频的真实性,这些视频反映了现实世界的未来状态。随着最近的进展将重点转向开发一个真正互动的物理世界。我们进一步研究了从视觉到空间表征以及从视频到化身的转变。这包括全面覆盖与反映外部世界的具身环境生成相关的研究。
  • 世界模型的应用:世界模型在各个领域都有广泛的应用,包括自动驾驶、机器人和社会模拟。我们探讨了世界模型在这些领域的整合如何推进理论研究和实践实施,强调了它们在现实世界应用中的变革潜力。

外部世界的隐式表征

  • World Model in Decision-Making;
  • World model in model-based RL
  • World model with language backbone

图片

  • World Knowledge Learned by Models
  • Knowledge of the Global Physical World
  • Knowledge of the Local Physical World
  • Knowledge of the Human Society

图片图片

物理世界的未来预测

  • World Model as Video Generation
  • Towards Video World Models
  • Capabilities of Video World Models

图片

  • World Model as Embodied Environment
  • Indoor Environments
  • Outdoor Environments
  • Dynamic Environments

图片

应用

自动驾驶

近年来,随着基于视觉的生成模型和多模态大语言模型的快速发展,世界模型作为理解世界状态和预测其未来趋势的模块,在自动驾驶领域引起了越来越多的关注。在此背景下,世界模型被定义为以多模态数据(如语言、图像和轨迹)为输入,并以车辆感知数据的形式连续输出未来世界状态的模型。然而,在基于世代的世界模拟器出现之前,自动驾驶中的世界模型概念早已存在。现代自动驾驶管道可分为四个主要组成部分:感知、预测、规划和控制。整个过程可以看作是一个决策管道。如前文所述,感知和预测阶段也代表了为车辆学习世界隐式表示的过程。这也可以被视为一种世界模态。因此,在本节中,我们将从两个角度阐述世界模型在自动驾驶中的应用和发展:学习世界隐式表示的模块和输出车辆感知数据的世界模拟器。

图片

  • Learning Implicit Representations
  • World Simulators

图片

机器人

世界模型已经成为机器人技术的一种变革性范式,使机器人能够在复杂的环境中有效地感知、预测和执行任务。这场机器人革命之所以成为可能,部分原因是神经网络和机器学习算法的进步,使机器人能够构建捕捉世界关键组成部分的隐式表示。另一方面,预测模型能够直接预测抽象表示之外的世界未来状态,使机器人能够应对可能的环境变化并主动做出反应。有了上述强大的技术,机器人直接与现实世界环境互动并从中学习变得越来越实用。如图6所示,LLM和世界模型被认为是通往通用人工智能(AGI)的可能途径之一,因为它们可以成为机器理解世界基本规律的起点。我们在表6中总结了机器人世界模型的发展。

  • Learning Implicit Representation
  • Predicting Future states of Environment

图片图片

社会模拟

“社会拟像”的概念最初是在中作为原型技术引入的,旨在帮助设计师创建一个包含许多不同代理的虚拟社会计算系统。基于专家定义规则或强化学习构建代理的传统方法面临着行为过于简单或缺乏可解释性等问题。然而,LLM的出现为构建更现实的社会拟像提供了一种变革性的工具,实现了更令人信服的程式化事实或准确的预测。社会拟像可以被视为一种反映现实社会计算系统的世界模型。从另一个角度来看,社会拟像中的主体也发展了对外部系统的隐式表征;也就是说,他们建立了一个隐式的世界模型,支持他们社会行为的产生。世界模型与社会拟像的关系如图7所示,代表作品汇总如表7所示。

  • Building Social Simulacra Mirroring Real-world Society
  • Agent’s Understanding of External World in Social Simulacra

图片图片

开放问题和未来方向

物理规则与反事实仿真

世界模型的一个关键目标是学习模拟世界的潜在因果关系,例如环境的物理规则。它们为推断反事实场景的未观察结果提供了重要能力,超越了假设相同数据分布的数据驱动预测方法。这些能力对于解决数据稀缺问题至关重要,这对于在关键任务应用程序中建模罕见事件尤为重要。例如,模拟极端情况对于提高自动驾驶人工智能的鲁棒性至关重要。此外,拥有物理规则的准确模型还可以提高模拟环境的一致性,这对于解决许多应用中模拟与现实之间的差距至关重要。此外,具有现实物理规则的世界模型被认为是人工智能代理全面了解物理世界的必要训练环境。

最近大型生成模型的突破主要是由变压器和扩散模型等深度学习模型推动的,这些模型本质上是数据驱动的。模拟物理规则的能力是否可以从训练数据的缩放中产生,这是一个有争议的问题。Sora展示了令人印象深刻的能力,可以生成高度逼真的物理世界视频,包括运动中的物体和形状可变的物体,如行人、狗和有咬痕的汉堡包。然而,它仍然难以准确模拟重力和流体动力学等物理规则。此外,研究人员还发现,LLM无法充分预测物理世界的状态转变,例如沸水。这些观察表明,尽管大型生成模型得到了大量数据集的支持,但在学习世界的因果表示方面仍然存在固有的局限性。一个有前景的未来方向是探索大型生成模型与物理规则模拟器的集成。这样的解决方案可能会降低生成内容的分辨率和质量,但它们应该提高对看不见的、伪造的场景的泛化能力。此外,具有明确的物理规则还可以提高世界模型的可解释性和透明度。

丰富社会维度

对于先进的世界模型来说,仅模拟物理元素是不够的,因为人类行为和社会互动在许多重要场景中也起着至关重要的作用。例如,城市居民的行为对于构建城市环境的世界模型尤为重要。先前的研究表明,LLM的类人常识推理能力为使用生成代理模拟现实的人类行为提供了独特的机会。然而,设计能够模拟真实和全面的人类行为和社会互动的自主代理仍然是一个悬而未决的问题。最近的研究表明,人类行为模态和认知过程的理论可以为代理工作流程的设计提供信息,从而增强LLM的人类行为模拟能力,这是未来研究的一个重要方向。此外,对生成的人类行为的真实性的评估在很大程度上仍然依赖于主观的人类评估,这很难扩展到大规模的世界模型。开发一个可靠且可扩展的评估方案将是未来的另一个研究方向,可以丰富世界模型的社会维度。

结论

了解世界和预测未来一直是开发人工生成智能的科学家的长期目标,强调了在各个领域构建世界模型的重要性。本文首次对世界模型进行了全面的调查,系统地探讨了它们的两个主要功能:隐式表示和外部世界的未来预测。我们对这些核心功能的现有研究进行了广泛的总结,特别强调了决策中的世界模型、模型学习的世界知识、作为视频生成的世界模型和作为体现环境的世界模型。此外,我们还回顾了世界模型关键应用的进展,包括自动驾驶、机器人和社会模拟。最后,认识到这一快速发展的领域中尚未解决的挑战,我们强调了悬而未决的问题,并提出了有前景的研究方向,希望促进这一新兴领域的进一步研究。

相关资讯

nuPlan又一SOTA!赵行团队新作STR2:运动规划的重新出发,仿真闭环的强大泛化!

本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接::::大型实际驾驶数据集推动了有关自动驾驶数据驱动运动规划器的各个方面的研究,包括数据增强、模型架构、奖励设计、训练策略和规划器架构。 在处理复杂和少样本情况下,这些方法有较好的表现。

Waymo玩明白了!全新多模态端到端算法EMMA:感知规划一网打尽~

写在前面 & 笔者的个人理解本文介绍了EMMA,一种用于自动驾驶的端到端多模态模型。 EMMA建立在多模态大型语言模型的基础上,将原始摄像头传感器数据直接映射到各种特定于驾驶的输出中,包括规划者轨迹、感知目标和道路图元素。 EMMA通过将所有非传感器输入(如导航指令和自车状态)和输出(如轨迹和3D位置)表示为自然语言文本,最大限度地利用了预训练的大型语言模型中的世界知识。

万物皆可高斯!清华最新GaussianAD:以高斯为中心的端到端自动驾驶,完爆当前SOTA!

写在前面 & 笔者的个人理解基于视觉的自动驾驶因其令人满意的性能和低成本而显示出巨大的潜力。 大多数现有方法采用密集表示(如鸟瞰图)或稀疏表示(如实例框)进行决策,这会在全面性和效率之间进行权衡。 本文探索了一个以高斯为中心的端到端自动驾驶(GaussianAD)框架,并利用3D语义高斯来广泛而稀疏地描述场景。