GRAPE

把RLHF带给VLA模型!通过偏好对齐来优化机器人策略,代码已开源

论文一作为北卡罗来纳大学教堂山分校张子健,指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。 共同第一作者为华盛顿大学 Kaiyuan Zheng,其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox,以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。 论文标题:GRAPE: Generalizing Robot Policy via Preference Alignment论文链接:::,视觉-语言-动作模型(Vision-Language-Action, VLA)在诸多机器人任务上取得了显著的进展,但它们仍面临一些关键问题,例如由于仅依赖从成功的执行轨迹中进行行为克隆,导致对新任务的泛化能力较差。
  • 1