概要
复旦DISC实验室推出了ReForm-Eval,一个用于综合评价大视觉言语模型的基准数据集。ReForm-Eval通过对已有的、不同任意情势的多模态基准数据集从事重构,建立了一个具有统一且适用于大模型评测情势的基准数据集。所建立的ReForm-Eval具有如下特点:
建立了横跨8个评价维度,并为每个维度供应足量的评测数据(平均每个维度4000余条);具有统一的评测题目情势(包括单选题和文本生成题目);方便易用,评测要领可靠高效,且无需依赖ChatGPT等外部服务;高效地利用了现存的数据资源,无需额外的人工标注,并且可以进一步拓展到更多数据集上。
我们的基准数据集与评价框架已经开源,具体利用可以参照本推送第4节。第1节介绍了ReForm-Eval的建立动机;第2节介绍了ReForm-Eval的建立、评价要领;第3节介绍了我们鉴于ReForm-Eval从事的定量分析得到的初步发现;请感兴趣的读者阅读,本文未尽之处请参阅我们的论文。
论文链接:https://arxiv.org/abs/2310.02569
作者信息:
01 引言
建立开源的类GPT-4的“大视觉言语模型”是最近多模态领域的热潮。目前的大模型,包括BLIP-2,MiniGPT4,LLaVA,Lynx等等,已经展现了令人惊喜的威力。这些模型可以回答图片相关的题目,做OCR,理解网上的梗图,但是也会因为幻觉(object hallucination)胡言乱语。
我们不禁好奇,那么这些模型究竟靠谱吗,哪个模型更好呢?然而目前却很少有定量的分析来评价和对比这些大模型,究其原因在于目前几乎没有适合评价大视觉言语模型的基准数据集。
那为什么之前的多模态数据集无法拿来评价新一代的模型呢?可以跟着我们在图1上半部分中一探究竟:
(1)首先看左上部分,目前多数的基准数据集都是为特定任意设计的,进一步就要求特定的输入-输入情势来辅助完成模型的评价,比如常用的问答数据集VQA 2就要求词/短语级别的简短输入;视觉蕴含任意则是“蕴含、矛盾、中立”关系的三分类任意;物体计数任意则只给出了数字情势的标签。
(2)然而以LLM为基座的大视觉言语模型非常灵活,倾向于输入完整且详细的句子(右上部分),对于第一个题目,虽然输入包括了准确谜底,但是VQA v2要求谜底完全一致(EM,exactly match);对于第二个题目,模型的理解准确,却没有用特定的词从事表达;对于第三个题目,模型错误输入了信息,但是数字部分却正好蒙对。
总的来说,旧有的基准数据集里任意特定的情势,与新一代的大模型的自由情势的文本输入存在着差异,但这是否意味着我们必须建立新的基准数据集来评价模型呢?
图1:旧有基准数据集和ReForm-Eval的区别。中括号内表示评价要领,红色、绿色分别代表错误和准确的评价结果
我们的谜底是否定的,既然现在的大模型无法适应于旧的基准数据集,那么为什么不把旧的数据集重构成适合大模型评价的题目情势呢。参照文本LLM的评价基准中常用的题目情势,我们主要考虑了两种情势:文本生成题目和单选题,前者则主要应用于OCR、图片描述这样严格需求文本生成的场景,后者则适用于重构其余的数据集。图1下半部分展示了几个重构成单选题的例子,进一步可以看出统一化的题目情势也方便从事统一、公平的评价。
鉴于重构的要领下,我们推出了一个统一化的基准数据集,ReForm-Eval。通过高效的利用现有的数据集资源,不必要额外的人工标注,就能在多种威力维度都供应足量的评价数据。
02 ReForm-Eval介绍
图2:ReForm-Eval中的评价维度和对应的任意
评价维度与建立要领
为了能解决用户提出的多样化题目,LVLM必要具有多样化的威力。ReForm-Eval为了能对模型从事综合的评价,参照图2,我们考虑了2大类,8小类的威力维度,每个威力维度下通过不同任意从事评价,对于每个任意,我们重构了该任意下的多个数据集作为评测的数据。
虽然任意多样,但是ReForm-Eval将对应的数据重构成了统一的题目情势:
特定场景下文本生成任意:a. OCR类任意:用于评价场景文本识别威力,要求模型检测出图片中完全一致的目标词;b. 描述任意:要求模型对视觉内容从事简短的描述单选题:利用样本的准确谜底标签作为准确选项,我们采取不同要领来根据原有基准数据集的情势来高效地建立负选项:a. 分类任意:如ImageNet,我们通过WordNet等方式建立了候选类别间的关系,并鉴于此挑选与样本标签相近的类别作为负选项,若分类类别较少,则利用所有的类别作为选项;b. 开放问答任意:如VQA 2.0,因为原有数据集中常出现的谜底可能与准确谜底相关性较低,我们通过ChatGPT的帮助从题目+准确谜底里产生相关却不等价的负选项;c. 其余特定情势的任意:主要通过适合该任意需求的策略从事负选项建立,比如图文匹配中的负选项来自数据集中用于描述其他图片的文本,并根据与准确谜底的相似度从事排序选取困难的负选项;
每个任意相关的数据集和具体建立细节请参见我们的论文。
评价要领
ReForm-Eval中统一的题目情势使得我们可以通过统一的评价要领,来对来自数据集的不同样本上模型的输入从事一致的评价。
1. 对于文本生成任意的评价:我们根据具体的场景设计了不同的评价要领.
a. OCR任意:
评价指标:词级别的准确率(图片中的准确词完整出现在模型输入文本中的比例)评价要领:自由式文本生成,通过设计prompt引导模型检测目标文本;
b. 视觉描述任意:
评价指标:CIDEr评价要领:自由式文本生成,通过设计prompt要求简短的输入,并额外鉴于对应数据集的特点限制模型生成文本最大长度
2. 对于单选题的评价:
评价指标:准确率,检测模型输入中的选项标记,比如“(A)”来判断模型的输入类别评价要领:我们发现很多模型无法遵循单选题的指令,无法准确输入特定格式的选项,我们通过两种方式从事辅助评价:a. 黑盒要领(Generation Evaluation):通过仅文本的in-context sample来引导模型按期望的格式输入,例子如下
其中红色部分为供应的in-context sample,必要注意该样本不供应图片相关的信息,仅供应输入结构的引导,实验过程中我们发现该策略非常有效,能引导模型在多数情况下输入期望的格式
b. 白盒要领 (Likelihood Evaluation):直接计算模型在给定图片、问 题下对于不同选项的生成概率,挑选最高的作为模型的挑选
其中v,q,c分别为图片,题目和候选谜底,P是目标大模型预测的生成概率(自回归式)。
3. 考虑稳定性的评价要领:因为大模型对于输入的文本非常敏感,所以ReForm-Eval考虑了评价中的不稳定性,并从事了稳定性的器量
a. 重复测试:对于同一个任意,ReForm-Eval供应了不同的题目模板,对于每个样本,将会从事N次测试,每次利用不同的模板,如果是挑选题还会打乱选项的顺序,利用不同的选项记号,取多次测试的平均值作为准确率;
b. 不稳定性器量:对于单选题,取N次实验中对于预测谜底分布的熵作为不稳定性的器量;对于文本生成任意,因为无法器量输入的分布,所以无法直接从事器量。
03 定量分析与发现
我们评价了包括BLIP-2,LLaVA,MiniGPT-4,Lynx等等一系列13个要领训练得到的16个模型,并从事了相关的分析,具体的表现与分析请参照我们的论文,以下为读者总结了一些我们初步的发现:
1. 对于基座模型的挑选(Figure 3):
a. 对于言语模型的挑选,必要考虑挑选本身具有一定指令遵循威力的基座,如FlanT5,Vicuna,LLaMA2-Chat
b. 对于视觉编码器的挑选,鉴于CLIP,EVA-CLIP的ViT是普遍且较优的挑选,越大的ViT也能为大视觉言语模型供应更好的视觉表示,进一步必要根据不同的视觉模型挑选一个合适的连接模块(如q-former,linear等);
2. 训练数据方面(Figure 4):
a. 预训练数据:质量是非常重要的,表现好的LVLM普遍利用高质量的人工标注数据集COCO;如果必要在数据数量的进一步扩展,直接利用质量较低的LAION效果并不好,利用BLIP中重新为图片生成的字幕(BLIPCapFilt数据集)会是更有效率的挑选,这很可能是BLIP-2,Lynx,BLIVA成功的原因;
b. 指令微调数据集的丰富程度是最重要的,指令微调的数据集数量越多,模型的泛化威力和表现越强,然而目前很多模型都只在有限的数据集上从事了指令微调。
3. 指令遵循威力方面(Table 3 和 Figure 5):
a. 目前的LVLMs指令遵循威力有限,但通过黑盒要领里的in-context样本能有效地供应结构信息,引导模型以期望的情势从事输入,是当下帮助完成LVLM评价的有效解决方案;
b. 指令遵循威力主要与模型利用的言语基座相关,鉴于FlanT5,Vicuna,LLaMA2-Chat的模型遵循威力会比鉴于llama的模型较好;
c.与此同时,全参微调言语基座反而会损害模型的这方面威力(LoRA微调则不会);
d. 很多模型,比如BLIVA,Lynx只有在白盒测试要领下才体现出其有效性。说明虽然黑盒要领下很多模型可以成功输入选项,但是模型因为对与挑选题理解不够,无法将内部的知识输入到文本中,必要白盒要领作为额外的辅助;
4. 模型都存在一定的不稳定性(Table 23):
a. 对于输入的prompt中较小的改变敏感,尤其是选项的顺序,说明整体上模型对于挑选题指令的理解有限;
b. 不同模型存在一定程度的对于选项的偏好(具体请参照论文中的Figure 10);
c. 鉴于白盒要领的器量的不稳定性较小,因为其直接评价了模型内部的建模概率,且不必要生成时的采样。
04 利用ReForm-Eval
ReForm-Eval的数据以及评价框架已经开源,请参照https://github.com/FudanDISC/ReForm-Eval/。
这里我们给出关于具体利用要领的简单介绍,我们为用户供应了两种主要的利用要领:
1. 用户将必要评测的模型迁移到ReForm-Eval适配的interface情势,鉴于ReFrom-Eval的框架从事评测:
a. 用户可以参照GitHub中Create Your Own Model Interface一节,通过将新的模型推理接口迁移到ReForm-Eval中的interface类情势,供应generation / likelihood evaluation的接口,并供应准确的读取方式(用户还需注意供应preprocessor要领,来将评测数据处理成模型必要的文本输入情势);
b. 建立完成后直接调用评价入口run_eval.py,修改其中的模型参数来调用新的模型接口即可完成对新模型的评价,ReForm-Eval支持多卡、半精度评测,输入的结果以及指标会分别存储在json,log文件中;
2. ReForm-Eval仅供应dataset和evaluate接口,用户通过自己的模型接口从事推理:
a. 通过ReForm-Eval供应的build.load_reform_dataset的接口获取ReForm-Eval评测的数据集,读取到的数据将以字典的情势供应给用户(必要注意用户必要自己实现或利用ReForm-Eval中的Preprocessor类功能来讲字典里的结构数据处理成模型必要的文本输入情势);
b. 用户利用自己的模型推理接口对读取到的数据从事推理,并将模型的预测写入“prediction”字段,将完整的结果输入到json文件中;
c. 利用ReForm-Eval中供应的评价接口run_loader_eval.py对上一步输入的json文件从事评价;
上述描述未尽之处,请参见GitHub中的Getting start部分的pipeline节。
用户鉴于上述流程,通过修改data相关的参数就能完成对多个数据集的评价,所有61个数据集对应的参数请参照GitHub中的Data Usage部分。
ReForm-Eval默认通过huggingface来供应数据的自动下载和读取,不必要手动从事下载,如果在huggingface下载中遇到题目,也可以通过手动下载等方式来获取数据。
如果您在利用过程中遇到困难,请务必通过Github Issue告知我们,或者邮件联系[email protected]。
*封面图生成自DALL·E 3,提示词“A tree grows from a withered seed in ice, in the new era, digital art”