视觉强化微调

视觉强化微调!DeepSeek R1技术成功迁移到多模态领域,全面开源

今天给大家重磅推荐一个突破性的视觉强化微调开源项目 —— Visual-RFT (Visual Reinforcement Fine-Tuning)。 论文地址:  : Visual-RFT 将 DeepSeek-R1 背后的基于规则奖励的强化学习方法和 OpenAI 的强化微调(Reinforcement Fine-Tuning,RFT)范式成功从纯文本大语言模型拓展到了视觉语言大模型(LVLM)。 通过针对视觉的细分类、目标检测等任务设计对应的规则奖励,Visual-RFT 打破了 DeepSeek-R1 方法局限于文本、数学推理、代码等少数领域的认知,为视觉语言模型的训练开辟了全新路径!
  • 1