可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]本文主要作者来自 MiniCPM-V 团队，其中第一作者余天予是清华大学 2021 级硕士研究生，他的主要研究方向是通用多模态基础大模型构建及其对齐办法。近期，由清华大学自然语言处理实验室

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

本文主要作者来自 MiniCPM-V 团队，其中第一作者余天予是清华大学 2021 级硕士研究生，他的主要研究方向是通用多模态基础大模型构建及其对齐办法。

近期，由清华大学自然语言处理实验室联合面壁智能推出的全新开源多模态大模型 MiniCPM-Llama3-V 2.5 引起了广泛关注，在发布后火速登顶 Hugging Face、GitHub、Papers With Code 的 Trending 榜首，与 Meta、微软、谷歌等科技巨头共同从全球 66 万模型中脱颖而出。与此同时，该模型使用的多模态对齐数据集也登上了 Hugging Face Trending 第二位。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

仅有 8B 体量的 MiniCPM-Llama3-V 2.5 不仅在多模态综合机能上超越了商用闭源的 GPT-4V、Gemini Pro、Claude3，同时在模型可信度方面也达到了开源模型中的最高水平。其出色的机能离不开背后的一项关键性技术 ——RLAIF-V。这项技术基于完全开源的范式从事多模态大模型的对齐，实现了超越 GPT-4V 的可信度。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

论文：RLAIF-V: Aligning MLLMs through Open-Source AI Feedback for Super GPT-4V Trustworthiness

论文地址: https://arxiv.org/abs/2405.17220

项目地址：https://github.com/RLHF-V/RLAIF-V

DEMO：https://huggingface.co/spaces/openbmb/RLAIF-V-12B

RLAIF-V 核心特点

从亦步亦趋迈向切磋琢磨，通过开源反应实现超越 GPT-4V 的可信度。

已有的多模态大模型对齐方案主要接纳蒸馏 GPT-4V 等昂贵的闭源模型的体例，实际上提供了一种模仿的办法（“亦步亦趋”）。随着开源社区的不断发展，我们急需一种可能让开源模型利用能力相仿或者相同的模型提供反应，从事自动对齐的方案（“切磋琢磨”）。RLAIF-V 通过无偏候选结构和分而治之的反应收集策略，可以从 OmniLMM 12B 等常规开源模型收集大规模的高质量反应数据。通过充分利用这些数据，RLAIF-V 12B 模型在生成工作和判别工作中都实现了超越 GPT-4V 的可信度。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

RLAIF-V 学习范式与模型可信度比拟

具备优秀泛用性的大规模高质量反应数据。

研究团队将训练 RLAIF-V 7B 和 RLAIF-V 12B 过程中所结构的高质量对齐数据整理为规模超过 83k 的多工作多模态对齐数据集 RLAIF-V Dataset，包括图片详细描述、图片知识问答、文字识别等多类指令，图片种类覆盖照片、艺术作品、名人、地标、场景文字等。实验表明，该数据集可有效减少 LLaVA 1.5, MiniCPM-V 等不同多模态大模型在多种工作中的幻觉，展现出了优秀的泛用性。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

RLAIF-V 数据泛用性

迭代对齐的高效反应学习。

在现有的模型训练中，接纳的偏好数据是静态的，但随着训练的从事，模型的输出分布却在不断变化，这导致训练数据分布与模型真实分布产生偏移，从而无法充分利用偏好数据，影响模型的对齐效率。RLAIF-V 接纳了迭代的体例从事对齐训练，相较于非迭代办法表现出了更高的学习效率和更好的机能，具有更优秀的规模效应。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

迭代与非迭代式训练的后果比拟

更可靠全面的多模态评测集 RefoMB。

随着模型能力的发展，已有的评测集或存在评测饱和的情况，或评测准确性不足，从而难以正确区分不同可信度的模型。为此，RLAIF-V 提出了新的 RefoMB 评测集，其指令覆盖了多模态模型感知和推理工作中的 8 个子能力，并包含了卡通图片、富文字图片、照片等多样化的图片类型，用于评估现有多模态模型在开放生成时的复原可信度和通用机能。通过野生标注图片详细描述作为评判参考，RefoMB 有效提高了评测准确性，野生一致性可以达到 96%。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

RefoMB 指令类型分布

RLAIF-V 框架

RLAIF-V 包含两项创新办法：数据层面，提出完全基于开源模型的高质量反应数据结构办法；算法层面，接纳迭代对齐算法从事模型优化。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

RLAIF-V 框架

大规模高质量开源模型反应数据的结构

为了减小反应对齐数据的获取成本，实现规模化的反应对齐数据获取，并提高开源多模态大模型提供反应的质量，研究团队结合分而治之的思想，提出了如下数据结构流程以实现高质量开源模型反应的获取：

无偏候选复原生成（deconfounded candidate response generation）：使用随机解码办法生成多个候选响应。在这种生成体例下，不同复原来自一个相同的分布，有效消除了样本对之间的文本风格差异等混淆因素，使训练过程专注于内容的可信度，从而提高数据效率。

分而治之（divide-and-conquer）：将复杂的响应分解为更简单、可以单独评估的子问题。这种简化使开源多模态大模型可以提供更可靠的反应。

应用这种数据结构办法，我们不仅可以利用具有更高模型机能的开源多模态大模型为机能较弱的模型提供反应，还可能通过模型自身反应的体例，使 OmniLMM 12B 模型实现超越 GPT-4V 的可信度。

迭代对齐算法

为了缓解现有对齐算法存在的分布偏移问题，一个直接的思路是在每步优化时更新反应数据。但是，这种在线反应的体例开销大、训练不稳定。因此，研究团队接纳了一种迭代对齐算法，在每轮迭代中更新反应数据，提升数据与模型分布的一致性。具体而言，在每一轮迭代时，利用上一轮训练得到的模型权重生成新的反应数据，并使用新数据从事训练。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

迭代对齐算法

RefoMB 评测集

在开放问答下的多模态幻觉评测中，有两类常见评测体例。一类是利用图片标注的常见物体类型，对模型复原中的存在性幻觉从事评测的体例，例如基于 MSCOCO 标注信息的 CHAIR 评测。另一类则利用 GPT-4 模型作为裁判，根据参考信息对模型复原的可信度从事打分，如 MMHal Bench 评测。

然而，随着模型能力的增强，仅考虑物体存在性幻觉的评测指标接近饱和，难以区分更加先进的模型之间的可信度差异；而接纳 GPT-4 打分的形式结构的评测集则因为提供的图片参考信息缺乏全面性，影响了可信度判断的准确性。

针对这两个问题，我们需要一个更加准确、且可能评估更加全面的幻觉类型的评测集，以真实反映目前多模态模型的可信度情况。为此，研究团队接纳了如下办法：

野生标注详尽图片描述：通过提供野生标注的详尽图片描述，GPT-4 模型可能更好地掌握图片的完整信息，从而提供更准确的判断。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

野生标注详尽图片描述样例

基于比较的评估：受语言大模型评测集 AlpacaEval 的启发，研究团队接纳 GPT-4 模型对两个多模态模型的复原优劣从事比较，并选择其中更优的复原。相比于直接对模型复原从事打分，这种比较的形式可以产生更高的判断准确率。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

评测结果样例

通过以上改进，RefoMB 可能在野生一致性上显著优于已有的开放问答幻觉评测集 MMHal Bench，达到 96% 的准确率。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术

RefoMB 与 MMHal Bench 的评测野生一致性比较

实验验证和结果

1.RLAIF-V 在 LLaVA 1.5 和 OmniLMM 两种多模态大模型上均产生了显著的可信度提升。

为了评估模型的幻觉水平，研究团队测试了模型在开放生成工作和幻觉识别工作中的可信度表现。团队还通过 LLaVA Bench 评测集评估了模型在开放对话和推理方面的机能。此外，为了全面了解模型的通用能力，研究团队还在结合了 6 个常用多模态评测数据集的综合评测集 MMStar 上从事了测试。

实验结果表明：相比于人类反应和 GPT-4V 反应，RLAIF-V 提出的开源模型反应办法甚至实现了更好的后果。RLAIF-V 12B 模型更是在幻觉评测指标上远超已有的开源多模态大模型甚至 GPT-4V，在通用能力方面也能维持优秀的机能。

可信度超越GPT-4V，清华&面壁揭秘「小钢炮」模型背后的高效对齐技术