AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
本文主要作者来自 MiniCPM-V 团队,其中第一作者余天予是清华大学 2021 级硕士研究生,他的主要研究方向是通用多模态基础大模型构建及其对齐办法。
近期,由清华大学自然语言处理实验室联合面壁智能推出的全新开源多模态大模型 MiniCPM-Llama3-V 2.5 引起了广泛关注,在发布后火速登顶 Hugging Face、GitHub、Papers With Code 的 Trending 榜首,与 Meta、微软、谷歌等科技巨头共同从全球 66 万模型中脱颖而出。与此同时,该模型使用的多模态对齐数据集也登上了 Hugging Face Trending 第二位。
仅有 8B 体量的 MiniCPM-Llama3-V 2.5 不仅在多模态综合机能上超越了商用闭源的 GPT-4V、Gemini Pro、Claude3,同时在模型可信度方面也达到了开源模型中的最高水平。其出色的机能离不开背后的一项关键性技术 ——RLAIF-V。这项技术基于完全开源的范式从事多模态大模型的对齐,实现了超越 GPT-4V 的可信度。
论文:RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness
论文地址: https://arxiv.org/abs/2405.17220
项目地址:https://github.com/RLHF-V/RLAIF-V
DEMO:https://huggingface.co/spaces/openbmb/RLAIF-V-12B
RLAIF-V 核心特点
从亦步亦趋迈向切磋琢磨,通过开源反应实现超越 GPT-4V 的可信度。
已有的多模态大模型对齐方案主要接纳蒸馏 GPT-4V 等昂贵的闭源模型的体例,实际上提供了一种模仿的办法(“亦步亦趋”)。随着开源社区的不断发展,我们急需一种可能让开源模型利用能力相仿或者相同的模型提供反应,从事自动对齐的方案(“切磋琢磨”)。RLAIF-V 通过无偏候选结构和分而治之的反应收集策略,可以从 OmniLMM 12B 等常规开源模型收集大规模的高质量反应数据。通过充分利用这些数据,RLAIF-V 12B 模型在生成工作和判别工作中都实现了超越 GPT-4V 的可信度。
RLAIF-V 学习范式与模型可信度比拟
具备优秀泛用性的大规模高质量反应数据。
研究团队将训练 RLAIF-V 7B 和 RLAIF-V 12B 过程中所结构的高质量对齐数据整理为规模超过 83k 的多工作多模态对齐数据集 RLAIF-V Dataset,包括图片详细描述、图片知识问答、文字识别等多类指令,图片种类覆盖照片、艺术作品、名人、地标、场景文字等。实验表明,该数据集可有效减少 LLaVA 1.5, MiniCPM-V 等不同多模态大模型在多种工作中的幻觉,展现出了优秀的泛用性。
RLAIF-V 数据泛用性
迭代对齐的高效反应学习。
在现有的模型训练中,接纳的偏好数据是静态的,但随着训练的从事,模型的输出分布却在不断变化,这导致训练数据分布与模型真实分布产生偏移,从而无法充分利用偏好数据,影响模型的对齐效率。RLAIF-V 接纳了迭代的体例从事对齐训练,相较于非迭代办法表现出了更高的学习效率和更好的机能,具有更优秀的规模效应。
迭代与非迭代式训练的后果比拟
更可靠全面的多模态评测集 RefoMB。
随着模型能力的发展,已有的评测集或存在评测饱和的情况,或评测准确性不足,从而难以正确区分不同可信度的模型。为此,RLAIF-V 提出了新的 RefoMB 评测集,其指令覆盖了多模态模型感知和推理工作中的 8 个子能力,并包含了卡通图片、富文字图片、照片等多样化的图片类型,用于评估现有多模态模型在开放生成时的复原可信度和通用机能。通过野生标注图片详细描述作为评判参考,RefoMB 有效提高了评测准确性,野生一致性可以达到 96%。
RefoMB 指令类型分布
RLAIF-V 框架
RLAIF-V 包含两项创新办法:数据层面,提出完全基于开源模型的高质量反应数据结构办法;算法层面,接纳迭代对齐算法从事模型优化。
RLAIF-V 框架
大规模高质量开源模型反应数据的结构
为了减小反应对齐数据的获取成本,实现规模化的反应对齐数据获取,并提高开源多模态大模型提供反应的质量,研究团队结合分而治之的思想,提出了如下数据结构流程以实现高质量开源模型反应的获取:
无偏候选复原生成(deconfounded candidate response generation):使用随机解码办法生成多个候选响应。在这种生成体例下,不同复原来自一个相同的分布,有效消除了样本对之间的文本风格差异等混淆因素,使训练过程专注于内容的可信度,从而提高数据效率。
分而治之(divide-and-conquer):将复杂的响应分解为更简单、可以单独评估的子问题。这种简化使开源多模态大模型可以提供更可靠的反应。
应用这种数据结构办法,我们不仅可以利用具有更高模型机能的开源多模态大模型为机能较弱的模型提供反应,还可能通过模型自身反应的体例,使 OmniLMM 12B 模型实现超越 GPT-4V 的可信度。
迭代对齐算法
为了缓解现有对齐算法存在的分布偏移问题,一个直接的思路是在每步优化时更新反应数据。但是,这种在线反应的体例开销大、训练不稳定。因此,研究团队接纳了一种迭代对齐算法,在每轮迭代中更新反应数据,提升数据与模型分布的一致性。具体而言,在每一轮迭代时,利用上一轮训练得到的模型权重生成新的反应数据,并使用新数据从事训练。
迭代对齐算法
RefoMB 评测集
在开放问答下的多模态幻觉评测中,有两类常见评测体例。一类是利用图片标注的常见物体类型,对模型复原中的存在性幻觉从事评测的体例,例如基于 MSCOCO 标注信息的 CHAIR 评测。另一类则利用 GPT-4 模型作为裁判,根据参考信息对模型复原的可信度从事打分,如 MMHal Bench 评测。
然而,随着模型能力的增强,仅考虑物体存在性幻觉的评测指标接近饱和,难以区分更加先进的模型之间的可信度差异;而接纳 GPT-4 打分的形式结构的评测集则因为提供的图片参考信息缺乏全面性,影响了可信度判断的准确性。
针对这两个问题,我们需要一个更加准确、且可能评估更加全面的幻觉类型的评测集,以真实反映目前多模态模型的可信度情况。为此,研究团队接纳了如下办法:
野生标注详尽图片描述:通过提供野生标注的详尽图片描述,GPT-4 模型可能更好地掌握图片的完整信息,从而提供更准确的判断。
野生标注详尽图片描述样例
基于比较的评估:受语言大模型评测集 AlpacaEval 的启发,研究团队接纳 GPT-4 模型对两个多模态模型的复原优劣从事比较,并选择其中更优的复原。相比于直接对模型复原从事打分,这种比较的形式可以产生更高的判断准确率。
评测结果样例
通过以上改进,RefoMB 可能在野生一致性上显著优于已有的开放问答幻觉评测集 MMHal Bench,达到 96% 的准确率。
RefoMB 与 MMHal Bench 的评测野生一致性比较
实验验证和结果
1.RLAIF-V 在 LLaVA 1.5 和 OmniLMM 两种多模态大模型上均产生了显著的可信度提升。
为了评估模型的幻觉水平,研究团队测试了模型在开放生成工作和幻觉识别工作中的可信度表现。团队还通过 LLaVA Bench 评测集评估了模型在开放对话和推理方面的机能。此外,为了全面了解模型的通用能力,研究团队还在结合了 6 个常用多模态评测数据集的综合评测集 MMStar 上从事了测试。
实验结果表明:相比于人类反应和 GPT-4V 反应,RLAIF-V 提出的开源模型反应办法甚至实现了更好的后果。RLAIF-V 12B 模型更是在幻觉评测指标上远超已有的开源多模态大模型甚至 GPT-4V,在通用能力方面也能维持优秀的机能。
RLAIF-V 与其他开源模型及 GPT-4V 在可信度和通用能力上的比拟
2. 接纳 RLAIF-V 提出的分治反应办法可能有效提高开源多模态大模型的反应质量。
为了验证 RLAIF-V 所提分治算法的有效性,研究团队分别对三种不同的反应模型接纳直接反应与分治反应的体例结构了训练数据,并评测训练后模型在开放生成工作和幻觉识别工作中的可信度表现。
实验结果表明,在不同机能的反应模型中,接纳分治反应体例训练得到的模型后果均显著优于直接反应。
分治反应算法与直接反应相比的模型可信度比拟
3.RLAIF-V 数据可能与其他多模态反应数据互补,进一步提升模型可信度。
目前已经有一些工作结构了基于野生标注或启发式规则的多模态反应数据,为了探究不同办法结构数据之间的互补性,研究团队将不同类型的反应数据从事了合并训练,并观察模型机能的变化。从实验结果来看,应用 RLAIF-V 数据可能显著提高模型可信度,而进一步融合其他反应数据时,模型可信度可能进一步提升。
同时使用 RLAIF-V 数据与其他多模态反应数据的后果
后果展示
使用 RLAIF-V 办法训练 LLaVA 1.5 7B 模型以及 OmniLMM 12B 模型后,在开放生成问题下,RLAIF-V 模型与 GPT-4V 模型的表现如下:
测试后果 1:RLAIF-V 7B 模型可能从事正确的推理,并具有更优的可信度。
RLAIF-V 7B 与 GPT-4V 后果比拟,其中红色部分为幻觉,绿色部分为正确的回答。注:原始问题和回答均为英文,翻译为中文方便阅读
当用户提问 “分析图中工作之间的关系” 时,RLAIF-V 7B 与 GPT-4V 均可能根据图中的信息判断出同事关系,但 GPT-4V 错误地认为讲话者是站立的状态,产生了人物动作上的幻觉。
测试后果 2:RLAIF-V 12B 模型可能在复原可信度上显著优于 GPT-4V。
RLAIF-V 12B 与 GPT-4V 后果比拟,其中红色部分为幻觉,绿色部分为正确的回答。注:原始问题和回答均为英文,翻译为中文方便阅读
可以看到,当用户提问:“图中可以看到的主要颜色是哪些” 时,RLAIF-V 12B 以及 GPT-4V 均可能正确回答出问题。但 GPT-4V 的回答中对文字颜色和背景颜色的识别均产生了错误。
测试后果 3:在更多类型的图片和指令上,例如代码问答工作上,RLAIF-V 办法同样能减少模型幻觉,产生更可信的复原。
LAIF-V 12B 与 GPT-4V 后果比拟,其中红色部分为幻觉,绿色部分为正确的回答。注:原始问题和回答均为英文,翻译为中文方便阅读
当要求模型解释代码输出时,RLAIF-V 12B 与 GPT-4V 均可能正确推理出代码的运行结果,但 GPT-4V 错误地认为图片中缺少一个分号,因此代码无法编译成功。这表明 RLAIF-V 办法所结构的偏好对齐数据可能让模型在诸如 OCR 等更广泛的能力上的可信度同步提高。
总结
将模型输出对齐人类偏好是构建实用化野生智能的关键环节。RLAIF-V 办法通过分而治之与迭代式训练的体例实现了仅利用开源模型从事可信度提升的对齐目标。未来,研究团队也将进一步探索逻辑推理、复杂工作等更广泛能力上的对齐办法。