AI在线 AI在线

迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型

作者:Yibin Wang
2025-03-13 10:18
本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。

本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。

论文介绍

图片

近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。现有的奖励模型往往过于专门化,难以跨任务泛化,限制了视觉模型在不同场景下的适应性。

为此,该工作提出——UnifiedReward,首个统一的视觉奖励模型,能够同时评估图像/视频的生成与理解,支持成对排序(pairwise ranking)和单样本评分(pointwise scoring),并通过直接偏好优化(DPO)对齐视觉模型的输出,使其更符合人类审美与认知!图片

为什么需要 UnifiedReward?

  • 缺乏通用的视觉奖励模型:现有方法多为特定任务设计,难以适应多样化的视觉场景。我们希望打造一个通用模型,同时覆盖多模态生成与理解任务。
  • 多任务学习的协同增强效应: 提升图像理解,有助于更精准地评估图像生成质量; 更细粒度的图像评估能力,有助于视频评估,提升帧级质量判断。图片

🏗 UnifiedReward 是如何工作的?

图片

该方法包含三个关键阶段:

  1. 统一奖励模型训练 通过构建大规模的统一偏好数据集来训练一个通用的视觉奖励模型,采用成对排序和单样本评分策略,统一学习评估图像/视频的生成与理解任务。
  2. 高质量偏好数据构建 利用训练好的奖励模型,通过以下三步筛选偏好数据:
  • 生成候选数据:使用VLM/Diffusion 生成N 份数据;
  • 成对排序:将N 份数据两两成对,由奖励模型筛选优选样本和被拒样本;
  • 逐点评分:在优选组中选最高分,在被拒组中选最低分,构建最终的高质量偏好数据对。
  1. 生成/理解模型偏好对齐 利用构建的偏好数据,通过直接偏好优化(DPO)微调VLM/Diffusion模型,对齐其输出,使其更加符合人类偏好。

构造的大规模统一偏好数据集构造的大规模统一偏好数据集

实验结果如何?

 UnifiedReward 超越了现有视觉奖励模型,在多个主流评测基准上取得 SOTA 结果! ✅ 多任务学习带来了显著的跨任务增强效果:联合学习图像/视频的生成与理解任务,可以让模型在多个领域相互促进,取得更好的评估效果! ✅ DPO 微调显著提升了视觉模型的表现,使其输出更符合人类偏好,提升了生成质量与理解能力。图片

图片图片图片

开源与项目地址

UnifiedReward 的代码、数据与模型已全面开源!

  • 项目主页:https://codegoat24.github.io/UnifiedReward/
  • 论文 PDF:https://arxiv.org/pdf/2503.05236
  • GitHub 代码:https://github.com/CodeGoat24/UnifiedReward
  • Huggingface 预训练模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • Huggingface 训练数据:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

期待 UnifiedReward 能为视觉大模型的偏好对齐提供更强大的工具,拓宽奖励模型的应用边界,使其在多种视觉任务中展现更强适应性、泛化性与高效性!!

相关标签:

相关资讯

全球顶级AI科学家许主洪加盟阿里!IEEE Fellow,五万被引论文数,曾任Salesforce集团副总裁

AI的新进展频频,人才动态也愈加重磅。 新年第一则大牛人事动向,引发业内关注。 许主洪,IEEE Fellow,新加坡管理大学终身教授,被曝加盟阿里。
2/8/2025 8:40:00 AM
量子位

IC-Portrait:打造逼真个性化肖像的新纪元

在数字内容创作、虚拟形象、游戏和增强现实等领域,肖像生成已成为计算机图形学研究的热点。 尽管近年来肖像生成模型取得了显著进展,能够生成越来越逼真和吸引人的肖像,但仍面临诸多挑战。 今天,给大家介绍一种个性化肖像生成框架IC-Portrait,该框架引入了一种创建逼真肖像图像的创新方法。
2/11/2025 10:30:00 AM
AIGC Studio

多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

OpenAI o1视觉能力还是最强,模型们普遍“过于自信”! 这个结果来自首个面向事实知识的中文视觉问答基准ChineseSimpleVQA。 该基准测试包含2200个高质量问题,覆盖了8个主要话题和56个子话题,这些问题涉及从人文到科学和工程等多个领域,由淘天集团未来生活实验室团队推出。
2/24/2025 9:12:00 AM
量子位