清华、华为等提出iVideoGPT:专攻交互式全国模型

iVideoGPT,满足全国模型高交互性需求。近年来,生成模型取得了显著进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的互联网规模数据上以无监督方式进修,用于构建猜测全国模型。这些全国模型有望积累关于全国如何运作的常识性常识,从而能够基于智能体的行为猜测潜在的未来结果。 通过利用这些全国模型,采用基于强化进修的智能体可以在全国模型中举行想象、推理和规划,从而在现实全国中通过少量试验就能更安全、更有效地获得新技能。尽管生成模型和全国模型有着基本的联系,但用于视频生成的生成模型和

iVideoGPT,满足全国模型高交互性需求。

近年来,生成模型取得了显著进展,其中视频生成正在成为一个新的前沿领域。这些生成视频模型的一个重要应用是,在多样化的互联网规模数据上以无监督方式进修,用于构建猜测全国模型。这些全国模型有望积累关于全国如何运作的常识性常识,从而能够基于智能体的行为猜测潜在的未来结果。 

通过利用这些全国模型,采用基于强化进修的智能体可以在全国模型中举行想象、推理和规划,从而在现实全国中通过少量试验就能更安全、更有效地获得新技能。

尽管生成模型和全国模型有着基本的联系,但用于视频生成的生成模型和用于智能体进修的全国模型的发展之间仍然存在显著的差距。主要挑战之一是如何在交互性和可扩展性之间取得最佳平衡。

在基于模型的强化进修领域,全国模型主要使用循环网络架构。这种设计允许在每一步中基于行动传递观看或潜在状态,从而促进交互行为进修。然而,这些模型大多专注于游戏或模拟环境,数据简单,并且对大规模复杂的 in-the-wild 数据举行建模的能力有限。

相比之下,互联网规模的视频生成模型可以合成逼真的长视频,这些视频可以通过文本描述或未来行动序列举行控制。虽然这样的模型允许高层次的、长期的规划,但它们的轨迹级交互性并没有为智能体提供足够的粒度来有效地进修精确的行为作为基本技能。

来自清华大学、华为诺亚方舟实验室、天津大学的研究者提出了 iVideoGPT(Interactive VideoGPT),这是一个可扩展的自回归 Transformer 框架,它将多模态信号(视觉观看、行动和嘉奖)集成到一系列 token 中,通过猜测下一个 Token 使智能体能够举行交互体验。

iVideoGPT 采用新颖的压缩 tokenization 技术,可有效分离高维视觉观看。利用其可扩展架构,研究者能够在数百万人类和机器人操作轨迹上对 iVideoGPT 举行预训练,从而建立一个多功能基础,可用作各种下游恣意的交互式全国模型。该研究促进了交互式通用全国模型的发展。

清华、华为等提出iVideoGPT:专攻交互式全国模型

论文地址:https://arxiv.org/pdf/2405.15223

论文标题:iVideoGPT: Interactive VideoGPTs are Scalable World Models

方法

在这一部分,研究团队介绍了一种可扩展的全国模型架构 ——iVideoGPT,其具有极高的灵活性,能够整合多模态信息,包括视觉观看、行动、嘉奖以及其他潜在的输入。

iVideoGPT 的核心包括一个压缩 tokenizer,用于分离化视频帧,以及一个自回归 transformer,用于猜测后续 token。通过在多样化的视频数据上举行预训练,该模型可以获得广泛的全国常识,然后有效地迁移到下游恣意中。

清华、华为等提出iVideoGPT:专攻交互式全国模型

架构

压缩 tokenization。Transformer 在处理分离 token 序列方面表现特别出色。VQGAN 是一种常用的视觉 tokenizer,用于将原始像素转换为分离 token。研究者提出用一种由双编码器和解码器 {(E_c, D_c),(E_p, D_p)} 组成的新型条件 VQGAN 对视频举行 token 化。

如图 3a 所示,初始上下文帧清华、华为等提出iVideoGPT:专攻交互式全国模型包含丰富的上下文信息,通过 N 个 token 独立地举行 token 化和重构:

清华、华为等提出iVideoGPT:专攻交互式全国模型

相比之下,由于上下文帧和未来帧之间存在时间冗余,只有必要的变化信息如移动对象的位置和姿态,才需要被编码。上述过程是通过使用条件编码器和解码器实现的:

清华、华为等提出iVideoGPT:专攻交互式全国模型

研究人员通过在多尺度特征图之间使用交叉注意力来实现条件机制。总的来说,tokenizer 是通过以下目标举行训练的:

清华、华为等提出iVideoGPT:专攻交互式全国模型

该研究提出的 tokenization 主要有两个好处:

首先,它显著减少了 token 化后视频的序列长度,该长度随帧数的增加而线性增长,但增长率 n 要小得多;

其次,通过条件编码,猜测后续 token 的 transformer 可以更容易地保持上下文的时间一致性,并专注于建模必要的动态信息。

Transformer 的可交互猜测。Token 化后,视频被展平成一系列 token:

清华、华为等提出iVideoGPT:专攻交互式全国模型

长度为清华、华为等提出iVideoGPT:专攻交互式全国模型。特殊的 slot token [S] 被插入以划定帧边界,并促进额外低维模态(如行动)的融合。如图 3b 所示,一个类似 GPT 的自回归 transformer 被用于通过逐帧生成 next-token 来举行交互式视频猜测。在这项工作中,该团队使用了 GPT-2 的模型大小,但采用了 LLaMA 架构,以便利用 LLM 架构的最新创新,如旋转位置嵌入。

预训练 

大语言模型可以通过 next-word 猜测以自监督的方式从互联网文本中获得广泛的常识。同样,全国模型的无行动(action-free)视频预训练范式将视频猜测作为预训练目标,为 LLM 缺乏的物理全国常识提供互联网规模的监督。

研究人员在这一通用目标上预训练 iVideoGPT,应用交叉熵损失来猜测后续视频 token:

清华、华为等提出iVideoGPT:专攻交互式全国模型

预训练数据。虽然互联网上有大量视频可用,但由于计算限制,研究人员特别为机器人操作领域预训练了 iVideoGPT。他们利用来自 Open X-Embodiment(OXE)数据集和 Something-Something v2(SSv2)数据集的 35 个数据集的混合,共计 150 万条轨迹。 

微调

行动条件与嘉奖猜测。该团队的架构被设计为灵活地整合额外模态以进修交互式全国模型,如图 3b 所示。行动通过线性投影并添加到 slot token 嵌入中举行整合。对于嘉奖猜测,他们没有进修独立的嘉奖猜测器,而是在每个观看的最后一个 token 的隐藏状态上添加了一个线性头(linear head)。

这种多恣意进修方法可以增强模型对恣意相关信息的关注,从而提高控制恣意的猜测准确性。他们在方程式(3)的交叉熵损失之外,还使用了均方误差损失举行嘉奖猜测。

Tokenizer 适应。研究团队选择更新完整模型,包括 tokenizer,以适应下游恣意,并发现这一策略比参数高效的微调方法更有效。

很少有文献探讨将 VQGAN tokenizer 用于特定领域的数据。在这项工作中,由于 tokenization 将动态信息与上下文条件解耦,并假设虽然此模型可能在下游恣意中遇到未见过的对象,如不同类型的机器人,但 transformer 从多样化场景中学到的基本物理常识 —— 如运动和交互是共享的。

这一假设得到了实验的支持,他们将 iVideoGPT 从混合预训练数据迁移到未见过的 BAIR 数据集,其中预训练的 transformer 可以零样本泛化猜测自然运动,仅需对未见过的机器人抓手的 tokenizer 举行微调(见图 7)。这一特性对于将类似 GPT 的 transformer 扩展到大型尺寸尤为重要,能够在保持 transformer 完整的同时实现跨领域的轻量级对齐。

清华、华为等提出iVideoGPT:专攻交互式全国模型

实验

如表 1 所示,与 SOTA 方法相比,iVideoGPT 展现出了具有竞争力的性能,同时在其架构中实现了交互性和可扩展性。虽然初步实验是在 64×64 的低分辨率下举行的,但 iVideoGPT 可以轻松扩展到 RoboNet 的 256×256。

清华、华为等提出iVideoGPT:专攻交互式全国模型

有关定性结果,请参阅图 9。

清华、华为等提出iVideoGPT:专攻交互式全国模型

图 4 显示了 iVideoGPT 与基准模型相比的成功率。iVideoGPT 在两个 RoboDesk 恣意中大幅优于所有基线,并实现了与最强模型 SVG' 相当的平均性能。

清华、华为等提出iVideoGPT:专攻交互式全国模型

图 6 显示基于模型的算法不仅比无模型算法提高了样本效率,而且达到或超过了 DreamerV3 的性能。

清华、华为等提出iVideoGPT:专攻交互式全国模型

接下来该研究分析了大规模预训练 iVideoGPT 在未见过的 BAIR 数据集上的零样本视频猜测能力。有趣的是,研究者在图 7 的第二行观看到,iVideoGPT 在没有微调的情况下,猜测了一个机器人抓手的自然运动 —— 尽管与预训练数据集不同。这表明,尽管由于预训练数据的多样性不足,模型在完全未见过的机器人上的零样本泛化能力有限,但它有效地将场景上下文与运动动态分离开来。相比之下,使用经过适应的 tokenizer,未经过微调的 Transformer 成功地迁移了预训练常识,并在第三行猜测了新型机器人的运动,提供了与第四行中完全微调的 Transformer 相似的感知质量,定量结果见图 8a。 

清华、华为等提出iVideoGPT:专攻交互式全国模型

了解更多结果,请参考原论文。

给TA打赏
共{{data.count}}人
人已打赏
应用

AI智能体的炒作与实际:GPT-4都撑不起,实际使命成功率不到15%

2024-5-28 15:13:00

应用

清华接手,YOLOv10问世:机能大幅提升,登上GitHub热榜

2024-5-28 15:29:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索