字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

如何利用大规模的视频数据来帮助机器人进修复杂恣意?最近 GPT 模型在 NLP 领域取得了巨大成功。GPT 模型首先在大规模的数据上预训练,然后在特定的下游恣意的数据上微调。大规模的预训练能够帮助模型进修可泛化的特征,进而让其轻松转嫁到下游的恣意上。但相比自然谈话数据,机器人数据是十分稀缺的。而且机器人数据包罗了图片、谈话、机器人状态和机器人举措等多种模态。为了突破这些困难,过去的工作尝试用 contrastive learning

如何利用大规模的视频数据来帮助机器人进修复杂恣意?

最近 GPT 模型在 NLP 领域取得了巨大成功。GPT 模型首先在大规模的数据上预训练,然后在特定的下游恣意的数据上微调。大规模的预训练能够帮助模型进修可泛化的特征,进而让其轻松转嫁到下游的恣意上。

但相比自然谈话数据,机器人数据是十分稀缺的。而且机器人数据包罗了图片、谈话、机器人状态和机器人举措等多种模态。为了突破这些困难,过去的工作尝试用 contrastive learning [1] 和 masked modeling [2] 等方式来做预训练以帮助机器人更好的进修。

在最新的研究中,ByteDance Research 团队提出 GR-1,首次证明了通过大规模的视频生成式预训练能够大幅提升机器人端到端多恣意操纵方面的性能和泛化能力。试验证明这种预训练方法可以大幅提升模型表现。在极具挑战的 CALVIN 机器人操纵仿真数据集上,GR-1 在 1) 多恣意进修 2) 零样本场景转嫁 3) 少量数据 4) 零样本谈话指令转嫁上都取得了 SOTA 的结果。在真机上,经过视频预训练的 GR-1 在未见过的场景和物体的表现也大幅领先现有方法。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

GR-1 在 CALVIN 中连续完成多个恣意

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

GR-1 在真机上端到端完成多种恣意

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

论文地址:https://arxiv.org/abs/2312.13139

论文网站:https://gr1-manipulation.github.io

方法

GR-1 是一个端到端的机器人操纵模型,采用了 GPT 风格的 transformer 作为模型架构。GR-1 首先在大规模视频数据上进行视频猜测的预训练。预训练结束后,GR-1 在机器人数据上微调。微调的训练恣意包含将来帧的猜测和机器人举措的猜测。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

GR-1 用来自 Ego4D [3] 数据的 8M 图片来做视频生成式预训练。在预训练阶段,GR-1 的输入包罗视频片段和描述视频的文字。文字信息用 CLIP [4] 的文字编码器编码。视频中的图片用 MAE [5] 编码,然后通过 perciever resampler [6] 来减少 token 的个数。输出端 GR-1 在每一个时间戳通过进修 [OBS] token 来输出将来帧的图片。[OBS] 对应的输出通过一个 transformer 来解码成图片。在预训练阶段,GR-1 采用了 mean squared error (MSE) 的损失函数。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

在机器人数据微调阶段,GR-1 的输入包罗恣意谈话指令,机器人状态和观测图片。其中机器人状态包罗 6 维机器人位姿和夹抓的开闭状态。机器人状态通过 MLP 来编码。输出包罗将来帧的图片和机器人举措。谈话和图片的编码方式与预训练阶段相同。输出端 GR-1 通过进修 [ACT] token 来猜测下一个时间戳机器人的举措。机械臂举措的损失函数采用 smooth L1 loss;夹抓举措的损失函数采用 binary cross entropy loss。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

试验

作家在 CALVIN 仿真平台上做了大量试验来验证 GR-1 的性能。CALVIN 是一个极具挑战性的机器人多恣意操纵仿真平台。其中包罗 34 个通过谈话指令的操纵恣意和 A, B, C, D 四个不同的环境。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

在 ABCD->D 试验中,机器人在来自 A, B, C, D 四个环境的数据上训练,并在 D 中尝试。在 ABC->D 试验中,机器人在来自 A, B, C 三个环境的数据上训练,并在 D 中尝试。这个试验旨在尝试 GR-1 应对零样本场景转嫁的能力。尝试中,机器人需要连续完成 5 个恣意。表中展示了不同方法在连续完成 1,2,3,4,5 个恣意的成功率和平均完成的恣意数量。GR-1 在两个试验中都超过了现有方法并在零样本场景转嫁上大幅领先。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

该工作还进行了小数据集的试验以理解 GR-1 在数据比较少的时候的表现。在 10% data 试验中,作家把 34 个恣意中的每个恣意的训练轨迹控制在 66 条。总轨迹数约为 ABCD->D 试验中的 10%。为了尝试 GR-1 应对未知谈话的能力,作家用 GPT-4 为每个恣意生成了 50 条新的未见过的谈话指令来尝试。GR-1 在小数据集和未知谈话指令的设置中都超越了现有方法。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

GR-1 真机试验包罗了移动物体和开关抽屉,如下图所示:

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

移动物体试验指令包罗将物体移动到盘子 / 桌面上。训练数据中包罗移动一个茄子、西兰花和彩椒(如上图最左所示)。作家首先在这些训练数据中见过的物体上做试验。在这个设置下,作家还尝试了加入了干扰物背景变化的试验。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

作家还在训练数据中未见过的物体上做了试验。未见的物体包罗未见过的物体实例(一组在训练数据中未见过的茄子、西兰花和彩椒)和未见过的物体种类(西红柿和黄桃)。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

以下为开关抽屉的试验:

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

如下表所示,GR-1 在真机试验中大幅领先对比的现有方法。

字节具身智能新成果:用大规模视频数据训练GR-1,复杂恣意轻松应对

在消融试验中,作家对比了去掉将来帧猜测和保留将来帧猜测但去掉预训练的模型的能力。结果表明猜测将来帧和预训练两者都对 GR-1 进修鲁棒的机器人操纵起到了关键作用。在猜测举措的同时加入将来帧的猜测能帮助 GR-1 进修根据谈话指令来猜测将来场景变化的能力。这种能力正是机器人操纵中需要的:根据人的谈话指令来猜测场景中应用的变化能够指导机器人举措的生成。而大规模视频数据的预训练则能帮助 GR-1 进修鲁棒可泛化的猜测将来的能力

结论

GR-1 首次证明了大规模视频生成式预训练能帮助机器人进修复杂的多恣意操纵。GR-1 首先在大规模视频数据上预训练然后在机器人数据上进行微调。在仿真环境和真机试验中,GR-1 都取得了 SOTA 的结果,并在极具挑战的零样本转嫁上表现出鲁棒的性能。

参考文献

[1] Nair, Suraj, et al. "R3m: A universal visual representation for robot manipulation." arXiv preprint arXiv:2203.12601 (2022).

[2] Xiao, Tete, et al. "Masked visual pre-training for motor control." arXiv preprint arXiv:2203.06173 (2022).

[3] Grauman, Kristen, et al. "Ego4d: Around the world in 3,000 hours of egocentric video." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.

[4] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.

[5] He, Kaiming, et al. "Masked autoencoders are scalable vision learners." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[6] Jaegle, Andrew, et al. "Perceiver: General perception with iterative attention." International conference on machine learning. PMLR, 2021.

给TA打赏
共{{data.count}}人
人已打赏
应用

谁能撼动Transformer统治地位?Mamba作者谈LLM未来架构

2023-12-29 11:36:00

应用

​这次重生,AI要夺回网文界的一切

2023-12-29 11:58:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索