全国模型,即通过预计未来的范式对数字全国和物理全国举行理解,是通往实现通用人工智能(AGI)的关键路径之一。
在视频生成规模,OpenAI 发布的 Sora 引起了广泛关注,Sora 具有极强的仿真威力,可以展现出对物理全国的初步理解;视频生成领军企业 Runway 在技术博客中表示,文生视频系统 Gen-2 的下一代产品将会通过通用全国模型来实现。在主动驾驭规模,Tesla 和 Wayve 均表示在利用全国模型的预计未来特性构建其端到端主动驾驭系统。在更广泛的通用机器人智能规模,LeCun 多次在演讲中表示对全国模型潜力的极大关注,并预言全国模型将会取代自回归模型成为新一代智能系统的基础。
为了对全国模型的最新进展举行全面探索和总结,近日,北京极佳视界科技有限公司(极佳科技)的研究人员联合国内外多家单位(中国科学院主动化研究所、新加坡国立大学、中国科学院计算技术研究所、上海人工智能实验室、迈驰智行、西北工业大学、清华大学等)推出了全球首篇通用全国模型综述。
该综述通过 260 余篇文献,对全国模型在视频生成、主动驾驭、智能体、通用机器人等规模的研究和应用举行了详尽的分析和讨论。另外,该综述还审视了当前全国模型的寻衅和局限性,并展望了它们未来的发展方向。
极佳科技的研究人员表示,会在 GitHub 项目中持续更新关于通用全国模型的更多研究进展,希望该综述能够成为通用全国模型的研究参考。
论文地址:https://arxiv.org/abs/2405.03520
GitHub项目地址:https://github.com/GigaAI-research/General-World-Models-Survey
全国模型通过对未来的预计来增进对全国的理解。如下图所示,全国模型的预计威力对于视频生成、主动驾驭以及智能体的发展至关重要,这三者代表了全国模型研究的主流应用方向。
首先,视频生成全国模型是指利用全国模型技术来生成和编辑视频,以便理解和模仿真实全国的情景。通过这种方式,能够更好地了解和表达复杂的视觉信息,为艺术创作提供了全新的可能性。
其次,主动驾驭全国模型是指利用视频生成和预计技术来创造和理解驾驭场景,并从这些场景中进修驾驭行为和策略,这对于实现端到端的主动驾驭系统具有重要意义。
最后,智能体全国模型是指利用视频生成和预计技术在动态情况中建立智能体与情况的交互,与主动驾驭模型不同,智能体全国模型构建的是适用于各种情况和情境的智能策略网络;这些智能体可能是虚拟的,例如在游戏中控制角色的行为,也可能是实体的,例如控制机器人在物理全国中执行任务;通过这种方式,智能体全国模型为实现智能互动和智能控制提供了新的解决方案。
视频生成规模
如下图所示,首先,该综述按照时间顺序讨论介绍了近年来提出的代表性视频生成模型。在 2021 年之前,以 GAN 为基础的模型(IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等)主导了视频生成规模。之后,鉴于自回归建模(GODIVA、VideoGPT 等)、集中建模(Imagen Video、SVD、CogVideo 等)和掩码建模(MAGVIT、VideoPoet、WorldDreamer 等)的模型开始出现,并取得了更好的生成效果。
以 GAN 为基础的模型(下图 (a))将生成器和判别器网络举行对抗训练,使得生成的视频更加真实。集中建模(下图 (b))则将视频信号编码到隐空间,引入一个降噪过程来生成视频,通过在隐空间多步降噪从纯噪声中解码恢复出高质量视频。鉴于自回归建模的模型(下图 (c))使用预计下一个视觉 Token 的步骤,逐步生成下一个时间对应的视频内容,这种步骤能够捕捉时间序列中的依赖关系,生成连贯和真实的视频。而掩码建模(下图 (d))则通过在训练过程中对部分视觉信息举行遮挡,并逐步恢复出掩码区域,最终得到无掩码的清晰视频。综上所述,近年来视频生成模型呈现出了多样化和创新化的发展趋势,不同的模型步骤相继涌现并取得了令人瞩目的生成效果。
Sora 是最近备受瞩目的视频生成模型,其技术方案依赖于上图 (c) 的集中模型。由于 Sora 是闭源的,本综述的相关分析主要鉴于其技术报告(https://openai.com/index/video-generation-models-as-world-simulators)。如下图所示,Sora 主要包括三个部分:
压缩模型:该模型将原始视频在时间和空间上举行压缩,转换成隐空间的特征举行表示,并且有一个解码器可以将隐空间特征映射回原始视频。
鉴于 Transformer 的集中模型:与 DiT(Scalable Diffusion Models with Transformers)步骤类似,该模型在隐空间中对含有噪声的视觉特征不断举行降噪处理。
语言模型:使用大语言模型将用户的输入编码为详细的 promts,以此控制视频的生成。
主动驾驭规模
除了视频生成方向,全国模型在主动驾驭场景下也存在巨大的应用价值,近些年来被研究者们不断探索。下图展示了自 2023 年以来,全国模型在主动驾驭场景场景下的研究发展,其中包括三种类型:端到端主动驾驭、驾驭场景 2D 模仿器和驾驭场景 3D 模仿器。
在主动驾驭规模,全国模型可以用来构建情况的动态表示。对未来的准确预计对于确保在各种工况下举行安全驾驭至关重要。因此,端到端主动驾驭步骤(Iso-Dream、MILE、SEM2 等)通过最小化搜索空间并在 CARLA v1 模仿器上集成视觉动态的明确解耦来应对这些寻衅。TrafficBots 则是另一种鉴于全国模型的端到端驾驭步骤,其侧重于预计给定情景中各个智能体的行为。通过考虑每个智能体的目的地,TrafficBots 利用条件变分主动编码器赋予各个智能体独特的特征,从 BEV(鸟瞰图)视角实现动作预计。
上述步骤在 CARLA v1 上举行了实验,但面临 CARLA v2 中数据低效性的寻衅。为了解决 CARLA v2 场景的复杂性。Think2Drive 提出一种鉴于模型的强化进修步骤用于主动驾驭,鼓励规划器在进修的潜在空间中举行 “思考”。该步骤通过利用低维状态空间和张量的并行计算显著提高了训练效率。
高质量的数据是训练深度进修模型的基石。虽然互联网文本和图像数据成本较低且易于获取,但在主动驾驭规模获取数据存在着诸多寻衅,原因包括传感器复杂性和隐私问题等因素。特别是在获取直接影响实际驾驭安全的长尾目标时更是如此。全国模型对于理解和模仿复杂的物理全国至关重要。
一些最近的研究已经将集中模型引入到主动驾驭规模,以构建全国模型作为神经模仿器,生成所需的自主 2D 驾驭视频。此外,一些步骤利用全国模型生成未来场景的 3D 占用网格或 LiDAR 点云。
下表提供了鉴于全国模型的驾驭场景数据生成步骤的总结。
智能体、机器人规模
除了主动驾驭规模,全国模型在智能体、机器人规模也有广泛的应用。给定一个目标,智能体需要规划一系列动作完成指定任务。已经有许多成功的算法用于在已知情况中举行动态规划,然而在大多数情况下,情况是复杂和随机的,难以通过人类经验明确建模。
因此,该规模的核心主题是智能体如何在未知和复杂的情况中进修规划。解决这个问题的一种步骤是让智能体从与情况的交互中积累经验,并直接从中进修行为,而不对情况的状态变化建模(即无模型强化进修)。虽然这种解决方案简单灵活,但进修过程依赖于与情况的许多交互,成本非常高昂。
World Models 是第一篇在强化进修规模引入全国模型概念的研究,其从智能体的经验中对全国的知识举行建模,并获得预计未来的威力。这项工作表明,即使是一个简单的循环神经网络模型也能够捕捉情况的动态信息,并支持智能体在该模型中进修和演化策略。这种进修范式被称为 “在想象中进修”。借助全国模型,试验和失败的成本可以大大降低。
下图展示了智能体和机器人规模的全国模型发展视概览,不同颜色显示了不同结构的全国模型。其中 RSSM(PlatNet、DreamerV1、DreamerV2、DreamerV3 等)占据主导地位,而 Transformer(TransDreamer、IRIS、Genie 等)、JEPA(JEPA、MC-JEPA、A-JEPA、V-JEPA 等)和集中模型(RoboDreamer、UniSim)从 2022 年开始越来越受到关注。
Recurrent State Space Model (RSSM) 是 Dreamer 系列的核心结构,旨在促进潜空间中的预计。它从像素观察中进修情况的动态模型,并通过在编码的潜在空间中规划选择动作。通过将潜在状态分解为随机和确定性部分,该模型考虑了情况的确定性和随机因素。由于在机器人的连续控制任务中表现出色,许多后续的工作都在其基础上举行了拓展。
Joint-Embedding Predictive Architecture (JEPA) 是由 LeCun 等人提出的,它进修从输入数据到预计输出的映射关系。与传统的生成模型不同,该模型不直接生成像素级输出,而是在更高级别的表示空间中举行预计,从而使模型能够专注于进修更语义化的特征。JEPA 的另一个核心思想是通过自监督进修来训练网络,以便它可以预计输入数据中缺失或隐藏的部分。通过自监督进修,模型可以在大量未标记的数据上举行预训练,然后在下游任务上举行微调,从而提高其在各种视觉和通用任务上的性能。
Transformer 源自自然语言处理任务。它鉴于注意力机制的原理,使模型能够同时关注输入数据的不同部分。在许多需要长期依赖和鉴于记忆推理的规模中,Transformer 已被证明比循环神经网络更有效,因此近年来在强化进修规模受到越来越多的关注。自 2022 年以来,已有多项工作尝试鉴于 Transformer 及其变种构建全国模型,在某些复杂的记忆交互任务上实现了比 RSSM 模型更好的性能。其中,Google 的 Genie 引起了相当大的关注。这项工作鉴于 ST-Transformer 构建了一个生成交互情况,通过对大量未标记的互联网视频数据举行自监督进修举行训练。Genie 展示了一种可定制化操控的全国模型新范式,为未来全国模型的发展提供了巨大潜力。
近来,也有步骤鉴于集中模型举行智能体全国模型的构建,RoboDreamer 进修构成式全国模型以增强机器人的想象力。它将视频生成过程举行分解,并利用自然语言的固有组合性。通过这种方式,它可以合成未见过的对象和动作组合的视频。RoboDreamer 将语言指令分解为一组基本元素,然后作为一组模型生成视频的不同条件。这种步骤不仅展示了强大的零样本泛化威力,还在多模态指令视频生成和机器人操作任务部署上取得了不俗的结果。UniSim 则是一个用于真实物理全国交互的生成式模仿器。UniSim 包含一个统一的生成框架,将动作作为输入,集成了多样的数据集。通过这种步骤,UniSim 能够模仿高级指令和低级控制的视觉结果,可以举行可控游戏内容的创建以及在模仿情况中训练具身智能对象。
寻衅及未来发展方向
尽管近年来在通用全国模型以及特定规模应用如主动驾驭和机器人的研究急剧增加,但仍有许多寻衅和机遇等待进一步探索。本综述也深入探讨了当前通用全国模型面临的复杂寻衅,同时设想了其未来发展的潜在方向。
寻衅一:因果和反事实推理
作为一种预计模型,全国建模的本质在于其推理未来的威力。该模型应能够推断以前从未遇到过的决策的结果,而不仅仅是在已知数据分布内举行预计。正如下图所示,我们期望全国模型具有反事实推理的威力,通过理性的想象推断结果。这种威力在人类中本能存在,但对于当前的 AI 系统来说仍然是一个具有寻衅性的任务。
例如,想象一辆面临突发交通事故的主动驾驭车辆或者一个处于新情况的机器人。具备反事实推理威力的全国模型可以模仿它们可能采取的不同行动,预计结果,并选择最安全的响应。这将明显改善自主智能体系统的决策威力,帮助它们处理新的和复杂的情景。
寻衅二:模仿物理定律。
虽然 Sora 的视频生成威力令人印象深刻,但有许多研究者认为将其视为全国模型为时尚早,因为它并不完全遵守物理定律。现实全国要求严格遵守物理定律,如重力、光相互作用和流体动力学。虽然 Sora 在建模运动方面有所改进,包括行人和刚体运动,但它仍然在准确模仿流体和复杂的物理现象方面表现不佳。仅通过视频 – 文本对训练是不足以理解这些复杂性的,与物理渲染器产生的数据联合训练可能是一条潜在的解决路径。
寻衅三:泛化威力。
泛化威力是评估全国模型性能的关键之一,其强调的不仅是数据内插,更重要的是数据外推。例如,在主动驾驭中,真实的交通事故或异常的驾驭行为是罕见的事件。那么,进修得到的全国模型能否想象这些罕见的驾驭事件呢?这要求模型不仅要超越简单地记忆训练数据,而且要发展出对驾驭原理的深刻理解。通过从已知数据举行外推,并模仿各种潜在情况,全国模型可以更好地在现实全国中举行安全的导航。
寻衅四:计算效率。
视频生成的效率是限制其大规模应用的关键因素。为了保持视频生成的一致性,通常采用的时序一致性模块会导致生成时间大大增加。根据互联网上的新闻和分析,Sora 可能需要大约一个小时来生成一分钟的视频。尽管在图像生成规模出现了一系列鉴于蒸馏的步骤,显著加速了生成速度,但在视频生成规模的相关研究仍然非常有限。
寻衅五:性能评估。
当前的全国模型的研究热点主要集中在生成式模型上,评估指标主要是生成质量,如 FID 和 FVD 等。此外,还有一些工作提出了更全面的评估基准,如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而,单独的度量数字不能全面反映全国模型的预计合理性。结合人类反馈可以使得评估变得更全面,但如何提升其效率和一致性是一个值得深入研究的方向。
关于极佳
本综述的牵头单位北京极佳视界科技有限公司是国内通用视觉智能方向最领先的团队之一,核心团队发表视觉和人工智能方向顶级论文 200 余篇,多次获得全球最具影响力的人工智能比赛冠军,发表多个具有全国影响力的人工智能技术成果,并拥有丰富的人工智能大规模产业落地经验。
极佳科技目前已经打造百亿参数级别通用视觉生成大模型,其研发的全国模型 DriveDreamer、WorldDreamer、HumanDreamer系列,已经在主动驾驭数据生成、具身智能、通用视频生成等应用场景实现落地和产生规模化营收,同时相关技术和成果得到国家专项课题认可和重点支持。