字节跳动研究团队最新推出了第二代机器人大模型 GR-2(Generative Robot2.0),其亮点在于创新构建“机器人婴儿期”学习阶段,模仿人类成长学习复杂任务,具备卓越的泛化能力和多任务通用性。
GR-2 模型和其它很多 AI 模型一样,包括预训练和微调两个过程。
在预训练阶段,GR-2“观看”了多达 3800 万个来自各类公开数据集的互联网视频以及 500 亿个 tokens,涵盖了家庭、户外、办公室等多种日常场景,让 GR-2 具备在后续策略学习中跨越广泛机器人任务和环境的泛化能力。
在微调阶段,团队使用机器人轨迹微调了视频生成和动作预测,展现出卓越的多任务学习能力,在超过 100 个任务中实现了平均成功率 97.7%。
此外,GR-2 在新颖、之前未见的场景中表现出色的泛化能力,包括新的背景、环境、物体和任务。
AI在线附上参考地址
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
字节跳动推机器人大模型 GR-2 展现智能自主操作新高度
GR-2 登场!ByteDance Research 提出机器人大模型,具备世界建模和强大泛化能力