GRAPE - AI在线

把RLHF带给VLA模型！通过偏好对齐来优化机器人策略，代码已开源

论文一作为北卡罗来纳大学教堂山分校张子健，指导老师为北卡罗来纳大学教堂山分校助理教授 Huaxiu Yao。共同第一作者为华盛顿大学 Kaiyuan Zheng，其余作者包括来自北卡教堂山的 Mingyu Ding、来自华盛顿大学的 Joel Jang、Yi Li 和Dieter Fox，以及来自芝加哥大学的 Zhaorun Chen、Chaoqi Wang。论文标题：GRAPE: Generalizing Robot Policy via Preference Alignment论文链接：：：，视觉-语言-动作模型（Vision-Language-Action, VLA）在诸多机器人任务上取得了显著的进展，但它们仍面临一些关键问题，例如由于仅依赖从成功的执行轨迹中进行行为克隆，导致对新任务的泛化能力较差。