GR-1 - AI在线

字节具身智能新成果：用大规模视频数据训练GR-1，复杂任务轻松应对

如何利用大规模的视频数据来帮助机器人学习复杂任务？最近 GPT 模型在 NLP 领域取得了巨大成功。GPT 模型首先在大规模的数据上预训练，然后在特定的下游任务的数据上微调。大规模的预训练能够帮助模型学习可泛化的特征，进而让其轻松迁移到下游的任务上。但相比自然语言数据，机器人数据是十分稀缺的。而且机器人数据包括了图片、语言、机器人状态和机器人动作等多种模态。为了突破这些困难，过去的工作尝试用 contrastive learning [1] 和 masked modeling [2] 等方式来做预训练以帮助机器人更