AI在线 AI在线

RSS 2025

RSS 2025|ConRFT: 真实环境下基于强化学习的VLA模型微调方法

本文第一作者为陈宇辉,中科院自动化所直博三年级;通讯作者为李浩然,中科院自动化所副研;研究方向为强化学习、机器人学习、具身智能。 视觉-语言-动作模型在真实世界的机器人操作任务中显示出巨大的潜力,但是其性能依赖于大量的高质量人类演示数据。 由于人类演示十分稀缺且展现出行为的不一致性,通过监督学习的方式对 VLA 模型在下游任务上进行微调难以实现较高的性能,尤其是面向要求精细控制的任务。
4/18/2025 12:05:00 PM
机器之心
  • 1