MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。1、背景在大算力的数字化时代下，大语言模型（LLM）以其令人瞩目的发展速度，正引领着技术的潮流。基于它们强大的文本理解和生成才智，各大研究机构正在探索如何将这些才智扩展至视觉领域，构建一

1、背景

在大算力的数字化时代下，大语言模型（LLM）以其令人瞩目的发展速度，正引领着技术的潮流。基于它们强大的文本理解和生成才智，各大研究机构正在探索如何将这些才智扩展至视觉领域，构建一个能够理解和生成多模态内容的超级智能体 —— 多模态大语言模型（MLLMs）。

在追求通用视觉性能的道路上，社区内已经涌现出众多精心设计的测评 benchmark。它们通常使用贴近日常生活的自然图片作为样例，为 MLLMs 的视觉才智提供周到的评价，如 MME、MMBench 等。然而，要深入了解 MLLMs 的 “思维” 和 “推理” 才智，仅凭通用视觉性能的测评远远不够。多模态数学题求解才智，才是衡量它们深度认知和逻辑推理才智的真实试金石。

尽管如此，目前领域内依然缺少针对 MLLM 数学解题才智的测评 benchmark。现有的少数尝试，如 GeoQA、MathVista 和 MMMU，通过深入分析，仍然存在一定的题目和偏差。鉴于此，我们推出一个全新的测评 benchmark——MathVerse，旨在深入探究 MLLMs 是否真实具备解读和解答多模态数学题的才智，为未来的技术发展提供独特的见解。

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

论文：https://arxiv.org/pdf/2403.14624.pdf

主页：https://mathverse-cuhk.github.io/

代码：https://github.com/ZrrSkywalker/MathVerse

数据集：https://huggingface.co/datasets/AI4Math/MathVerse

标题题目：MATHVERSE: Does Your Multi-modal LLM Truly See the Diagrams in Visual Math Problems?

值得一提的是，这项研究在当日的 HuggingFace Daily Paper 中排名第一，并在推特上引发了普遍的讨论，浏览量高大 10K+。

2、关键发现

然而，通过周到观察和分析，我们发现当前多模态数学 benchmark 中存在的三个关键题目：

1.MLLM 在测评中是否真实 “看到” 了数学图象？这是关于准确评价视觉数学题目解决才智最基本的题目。图 1（a）展现了当前 benchmark 中的三个示例。我们观察到，它们的标题题目文本中包含了大量与图象内容重复的信息（以红色高亮显示）。这种冗余可能无意中为 MLLM 提供了一条捷径，使它们在解决题目时主要通过阅读文本，而不是解读图表。我们假设从图 1（b）的实验中得到了支持。我们对每个 benchmark 随机抽样的 40 个题目，移除了这种冗余文本，挑战 MLLM 仅从视觉输出中捕获相应的信息。结果显示，大多数 MLLM 的准确率显著下降（蓝色柱子），甚至低于不将图表作为输出时的得分（灰色柱子）。这一结果表明，MLLM 在解决这些题目时，主要依赖于文本线索，而非真实去理解视觉图象本身，并且，在不输出图象的情况下，甚至可以得到更高的评分。鉴于此，我们展现了当前的视觉数学 benchmark 可能不足以周到评价 MLLM 的真实多模态数学推理才智。

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

2. 仅通过 MLLM 回答的最终答案来评价是否公平？大多数现有的多模态 benchmark 直接将模型输出与真值进行比较，以得出二元评价结果（“正确” 或者 “错误”）。虽然这种方法对于通用的视觉问答情境可能足够，但在需要复杂逐步推理的数学题目中却显得过于武断。在图 2 中，我们展现了三个不同模型的输出。尽管它们最终都得到了错误的答案，但它们在中间推理过程中展现了不同程度的精确性。仅将这些输出归类为 “错误”，未能捕捉到 MLLMs 推理质量的细微差别。

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

3. 它们是否能够周到并且专注的体现出 MLLM 的数学推理才智？GeoQA 仅仅包含了平面几何数学题，从而限制了对更普遍数学才智的评价，例如函数和立体几何。相反，MathVista 加入了普遍的辅助任务（自然图象、统计图表）来扩展范围，但这些并不直接评价 MLLM 的专业数学技能。此外，MMMU 中的数学题目具有大学级别的复杂度，需要普遍的领域特定知识，这可能阻碍 MLLMs 充分展现它们的推理才智。

3、MathVerse Benchmark

1. 数据组成和统计

MathVerse 测评数据集收集了 2612 个多模态数学题，并人工标注构造了多达 15672 个测试样本，普遍涵盖了 3 个主要标题题目类型和 12 个子类，例如平面几何、立体几何和函数。经过团队细致检查与标注，MathVerse 高质量数据可以为 MLLM 提供一个鲁棒且周到的才智测评。

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

2. 如何体现 MLLM 的数学图象理解才智？

我们首先根据标题题目中文本和图象的信息关联，以下图所示，定义了 3 种不同的文本类别：

a. 描述信息，Descriptive Information（DI，红色高亮部分）指的是图象中可直接观察出的内容。它描绘了基本图形组成、几何形状和空间布局。此类文本信息对于图象而言是重复性的，因此被视为解决题目的冗余信息。

b. 隐含属性，Implicit Property（IP，蓝色高亮部分）指的是那些需要更强的视觉感知才智才能从图象中辨识出来的属性。它代表着解决题目所需的较强视觉条件，如线条之间的平行性和垂直性、三角形之间的相似性和全等性、函数的种类和周期性。

c. 基本条件，Essential Condition（EC，绿色高亮部分）指的是标题题目中给定的具体数值，它们是推导解决方案不可或缺的条件，并且不能从视觉图表中直接得出，例如角度、长度的精确值和函数表达式。

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

基于以上三种文本信息的定义，我们将每道多模态数学题通过人工标注，系统地移除题目中的不同文本信息，并逐步将关键元素融入到图表中，拓展为 6 个不同的标题题目版本，以下图所示。这种方法可以逐渐减少文本中提供的信息量，从而越来越有力地迫使 MLLM 从视觉输出中捕获数学条件。通过比较 MLLM 在不同标题题目版本之间的得分，我们可以很清晰的评价它们的真实视觉理解才智。

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

3. 如何细致评价 MLLM 的中间解题步骤？

与一般情景下的视觉题目回答相比，MLLM 解决数学题目的过程需要细腻、逐步的链式推理（Chain-of-Thought，CoT）。为此，我们提出了一种 CoT 评价策略，以细致的评价它们的视觉数学链式推理才智。我们的 CoT 策略通过分别提示 GPT-4 和 GPT-4V 进行两个阶段的测评：关键步骤提取（Key-step Extraction）和多步评分（Multi-step Scoring）。以下图所示：

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

这种评价策略不仅关注最终答案的正确性，而且更加重视解题过程中的逻辑连贯性和推理深度。通过这种方法，我们能够更加精准地揭示 MLLM 在解决复杂数学题目时的真实才智，尤其是它们如何一步步构建题目解决方案的才智。这对于理解 MLLMs 的思维方式、推理才智，以及它们如何处理和解释视觉与数学信息的综合才智至关重要。

4、实验与结论

我们在 MathVerse benchmark 上测评了 17 个现有的 MLLM，以下表所示。其中 “CoT-E” 代表使用了我们提出的 CoT 测评策略，而 “w/o” 代表了直接进行二元对错的测评结果。

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

基于测评，我们可以得出以下结论：

MLLM 更依赖于文本信息去解题，而不是观察数学图象。

除 GPT-4V 和 ShareGPT4V 之外，大部分 MLLM 在没有图象输出的情况下，仅仅通过文本竟然可以获得更高的得分，证明如今低质量的视觉编码对于解题来说起到了负面的作用。

MLLM 很难从图象中准确的解读出标题题目中的基本条件和题目。

闭源模型的多模态数学解题才智要比开源模型更好。

通过比较 G-LLaVA 和 LLaVA-1.5，使用数学训练数据进行模型微调可以提升特定的解题才智，但是也会降低其泛化才智。

CoT 测评相比二元测评可以更周到的体现模型的逻辑推理才智。

{{userData.name}}已认证

MLLM真能看懂数学吗？MathVerse来了次摸底测评，放出当天登热榜

蚂蚁团体、浙江大学结合发布开源大模型学问抽取框架OneKE

CVPR 2024高分论文：全新生成式编写框架GenN2N，统一NeRF变换任意

谷歌这款新概念键盘，治好了我多年的老病

消息称微软 AI 助手 Copilot 已可在中国内地正常使用

苹果为其 AI 构筑“云处理安全堡垒”：公开指南和研究环境，漏洞悬赏最高 100 万美元

无需训练即可创建数字人，字节PersonaTalk视频口型编辑超SOTA

字节跳动内测 AI 模型分享社区“炉米 Lumi”，据称集成 LLM 分享 / 搭建 / 训练等功能

智谱清言上线情感语音模型 GLM-4-Voice：可理解情感，有情绪表达和共鸣

消息称谷歌将推出“Project Jarvis”：可实现网页任务自动化

Meta 公布机器人触觉感知能力研究成果：利用手指传感器结合“AI 大脑”理解 / 操作外界物体