目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及鉴于其的基准尝试或许能给我们提供一点线索,如下排行榜所示。
看起来,GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的并不为了击败大学生,而是为了提供一个兼具深度与广度的多模态 AI 尝试基准,助力人工智能系统的开发,尤其是通用人工智能(Artificial General Intelligence,AGI)。
随着大型语言模型(LLM)快速发展,人们对 AGI 这一颇具争议的概念进行了广泛讨论。简单来说,AGI 是指在大多数任务上都与人类相当或超越人类的人工智能系统。由于不足公认的可操作定义,人们一直都很难就 AGI 开展更加坦诚和建设性的讨论。
为了解决这个课题,Morris 等人的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》提出了一种兼顾通用性(广度)和功能(深度)的 AGI 分级分类法。
在这种分类法中,第 3 级是大师 AGI,这是一个重要的里程碑。它表示 AI 系统在广泛的任务上达到了「掌握专业常识的成年人类的 90%」,并由此可以在许多行业中达到「机器智能接替人类劳动力的替代门槛」,从而造成重大的失业风险和经济混乱。因此,密切关注大师 AGI 的发展情况具有重要的学术和社会意义。
那么,该如何创造用于度量大师 AGI 的基准呢?
由于大师 AGI 的定义是鉴于与专业人士的比较,因此不同学科的大学水平考试就是一个很好的起点,因为这些考试本身的目的就是评价人类在相应学科的专业能力。MMLU 和 AGIEval 等基准已经成功采用了这一策略,但它们只考虑了鉴于文本的课题,而人类大师有能力解决多模态课题。
与此同时,能够明白文本和图象的大型多模态模型(LMM)已经朝着更通用的人工智能迈出了一大步。这些 LMM 能在现有的多模态基准尝试上获得稳定一致的优良表现。比如 CogVLM 在 VQA-v2 基准上的成绩为 85%,在 ScienceQA-IMG 上为 92%,在 RefCOCO 上为 93%。
然而,大多数现有的多模态基准侧重于常识 / 日常常识,而不是大师级的领域常识和高级推理。与这个目标最接近的基准是 ScienceQA。尽管 ScienceQA 覆盖了多个学科(广度),但其大部分课题都限于小学到初中水平,因此不足深度,不足以作为大师 AGI 的基准。
为此,IN.AI Research 等多所机构的一个研究团队构建了一个新基准 MMMU,可用于评价 AI 在大学水平的多学科课题上的多模态明白和推理能力。
论文地址:https://arxiv.org/abs/2311.16502
项目网站:https://mmmu-benchmark.github.io/
数据集:https://huggingface.co/datasets/MMMU/MMMU
代码:https://github.com/MMMU-Benchmark/MMMU
其中包含的课题来自大学考试、测验和教科书,涉及六个常见学科:艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程。MMMU 包含 1.15 万个精心选取的多模态课题,涵盖 30 个不同的科目和 183 个子领域,因此满足广度目标。此外,MMMU 中许多课题都需要大师级的推理能力,比如使用傅立叶变换或均衡理论来推导课题的解,因此也满足深度目标。
MMMU 还具备了两个特有挑战(图 1):一是其涵盖多种图象格式,从照片和绘画等视觉场景到图表和表格,可用于尝试 LMM 的感知能力;二是 MMMU 具有文本和图象混合交织的输入。对于这个基准,AI 模型需要把图象和文本放在一起明白,这往往需要回忆深度的学科常识并根据明白和常识来执行复杂推理。
该团队不仅提出了基准,也鉴于新基准评价了一些模型,其中包括 14 个开源 LMM 和 GPT-4V。他们从中得到了一些有趣的结论。
此外,他们还分析了 GPT-4V 的 150 个正确案例,结果发现 35% 的正确与感知有关,29% 的正确源自不足常识、26% 则是由于推理过程的缺陷。这些发现表明 MMMU 是有难度的,可用于助力进一步的研究发展。
MMMU 基准
MMMU 概况
MMMU 是 Massive Multi-discipline Multimodal Understanding and Reasoning 的缩写,即大规模多学科多模态明白和推理。其构建目标是评价基础模型在广泛多样的任务上的大师级多模态明白能力。MMMU 涉及 6 个学科的 30 个科目。图 2 给出了每个学科的一个 MMMU 样本。
图 3 详细给出了所覆盖的科目及相关统计数据。
该基准中的课题是人工收集的,收集者是来自不同学科的 50 位大学生,数据来源包括网络资源、教科书和课程材料。
如表 1 所示,MMMU 中共有 1.15 万个课题,并分成了三个子集:少样本开发集、验证集和尝试集。
少样本开发集中每个科目包含 5 个课题;验证集则包含大约 900 个课题,可用于超参数选择;尝试集则有 1.05 万个课题。MMMU 的设计目标是衡量 LMM 的三项基本技能:感知、常识和推理。
数据的收集和整理过程
数据收集。第一步,他们浏览了常见的大学专业,然后确定要将哪些学科包含进该基准中。他们选择的原则是该学科需要经常采用视觉输入来提供有价值的信息。鉴于这个原则,他们去掉了法学和语言学等一些学科,因为这些学科中很难找到足够多的相关多模态课题。最后,他们从 6 个不同学科中选择了 30 个科目。
第二步,他们招募了 50 位这些专业的大学生,让他们作为标注者来帮助收集课题。他们会从专业教科书和网络资源收集多模态课题,并在有必要时根据自己的专业常识创建新课题。考虑到基础模型的数据污染课题,标注者会选择没有立即可用答案的课题,例如那些答案在不同的文档中或教科书末尾的课题。这个过程中,他们得到了 1.3 万个课题。
为了进一步控制数据质量,他们又执行了两个数据清理步骤。第一步,他们使用了词汇重叠和来源网址相似度来识别潜在的重复课题。然后他们对这些重复项进行了审查,并清除了所有重复项。第二步则是把这些课题分配给该论文的参与作者,让他们帮助进行格式和拼写检查。最后,该团队对这些课题进行了难度分级:非常简单、简单、中等、困难。其中大约 10% 的课题属于非常简单;由于太过简单,不符合该基准的设计原则,因此被排除在外。
图 4 给出了 MMMU 与已有基准的差异。
实验
该团队鉴于 MMMU 对多种 LLM 和 LMM 进行了评价。每一种典型都兼顾了闭源和开源模型。评价采用了零样本设置,以评价模型在没有微调或少样本演示的情况下生成准确答案的能力。所有实验均鉴于 NVIDIA A100 GPU。
主要结果
表 2 给出了在 MMMU 基准上不同 LLM 和 LMM 的结果比较。
他们得到了一些重要发现:
MMMU 难度很大,就连 GPT-4V 的准确度也只有 55.7%,这说明 AI 技术还有很大的改进空间。
开源 LMM 和 GPT-4V 的功能差距很大。BLIP2-FLAN-T5-XXL 和 LLaVA-1.5 等表现最好的开源模型也只有 34% 左右的准确度。
具备光学字符识别(OCR)或生成字幕的 LLM 没有看到显著的提升,这说明 MMMU 需要模型更深度地将图象和文本放在一起明白。
在艺术与设计以及人文与社会科学等视觉数据不太复杂的学科中,模型表现出的功能更高。相比之下,商科、科学、健康与医学以及技术与工程等领域具有更复杂的视觉数据并需要复杂的推理,因此 AI 模型的功能也相对较低。
但该团队也指出,MMMU 并不足以对大师 AGI 进行充分的尝试,这是受定义限制的,因为模型的 MMMU 功能与「掌握专业常识的成年人类的 90%」之间不存在直接的映射关系,而且大学考试也并非 AGI 理应解决的唯一任务。但他们也认为大师 AGI 有必要在 MMMU 基准上取得好成绩,这样才能体现其掌握常识的广度和深度以及大师级的明白和推理能力。
对图象典型和难度的分析
不同的图象典型。图 5 比较了在常用的图象典型上,不同模型的功能。可以看到,在所有典型上,GPT-4V 始终大幅优于其它模型。在照片和绘画等训练中更常见的典型上,开源模型的表现相对较好。但是,对于几何形状、乐谱和化学结构等更不常见的图象类别,所有模型的分数都非常低(有些接近于随机乱猜)。这表明现有模型在这些图象典型上的泛化功能不佳。
不同难度。表 3 比较了所选模型在三个难度层级上的功能。在「容易」类别中,GPT-4V 的表现显著优于开源模型,成功率达到了 76.1%。对于「中等」难度类别,差距缩小了,但 GPT-4V 依然领先,为 55.6%。到了「困难」级别,模型的差距进一步变小,这表明随着任务复杂性的提升,GPT-4V 等更先进模型的优势会逐渐消失。这可能表明当前模型在处理大师级高难度查询方面存在局限,即便最先进模型也是如此。
正确分析与未来研究
该团队还深度分析了 GPT-4V 的正确,这有助于明白其运作能力和局限。该分析不仅能识别模型当前的缺点,还可以帮助改进未来的设计和训练。他们从 GPT-4V 的预测中随机采样的 150 个正确实例,然后请大师级标注者分析了这些实例,这些大师根据自己的常识找到了这些正确预测的根本原因。图 6 给出了这些正确的分布情况。
感知正确(35%):GPT-4V 的正确中很大一部分是感知正确,这又可以进一步分为两种典型:基本感知正确和特定领域的感知正确。如图 7 所示,当模型能准确处理和明白给定信息,但无法解读基本的视觉信息时,就会出现基本感知正确。而特定领域的感知正确则是由不足常识所致。当分析根本原因时,研究者将此类正确归类为不足常识。此外,GPT-4V 经常表现出对文本的偏好,也就是以文本信息优先,视觉输入在后。
不足常识(29%):如前所述,对于 GPT-4V 模型,特定领域的感知正确的一个基本根本原因就是不足专业常识。类似地,不足专业常识还可能导致推理出现课题。
推理正确(26%):在一些实例中,模型正确解读了文本和图象,也找到了相关常识,但却未能成功应用逻辑和数学推理技能来进行准确的推导。
其它正确:其它正确还包括文本明白正确(6%)、拒绝问答(3%)、注释正确(2%)、答案提取正确(1%)。这些正确的原因也多种多样,比如复杂文本的解读难度大、响应生成的限制、数据注释不准确以及从较长输出中提取精确答案存在课题。
更多详细内容,请阅读原文。