AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
上海交通大学生成式人工智能实验室 (GAIR Lab) 的研讨团队,主要研讨方向是:大模型训练、对齐与评价。团队主页:https://plms.ai/
图灵奖得主Hinton在他的访谈中提及「在未来20年内,AI有50%的概率超越人类的智能水平」,并建议各大科技公司早做准备,而评定大模型(包括多模态大模型)的「智力水平」则是这一准备的必要前提。
一个具有跨学科题目集、可以从多维度严谨评价AI的认知推理才智评价基准已经变得相当亟需。
1. 大模型不断占领人类智力高地:从小学试题到参加高考
以大模型为核心的生成式人工智能技术的兴起,使得人类不仅有了可交互的文本、图片、视频交互生成工具,还使得人类有机会训练出一个”有智力“才智的模型,它可以看成是人类延申的大脑,独立完成分别学科题目,成为未来10年可以给科学发现提供加速度的最有力的工具(即AI4Science)。
过去两年,我们看到这种以大模型为代表的硅基智能的快速进化,从最初只能用来去解决小学题目, 到2022年,CMU等人[1]第一次把AI带到了“高考”考场,并在全国卷II英语上取得了134分的成绩,然而,那时候的AI还是个数理逻辑掌握不好的偏科生。直至今年,2024高考刚刚落下帷幕,在无数学子在这一年一度的大考中奋力拼搏,展现了他们多年来的学习成果的同时,大模型也是空前第一次被全学科的拉到考场,并且在数理学科中取得巨大进步。这里我们不禁思考,AI智力进化的天花板在哪?人类还没祭出最难的题目,那会是AI的天花板吗?
2. 智力较量最高殿堂:从 AI 高考到 AI 奥运会
四年一度的奥运会也即将到来,这不仅是体育竞技的巅峰盛会,更象征着人类对极限的不断追求和突破。学科奥林匹克竞赛则是知识的深度与智力的极限的完美结合,它既是对学术成就的严格评价,也是对思维敏捷性和创新才智的极限挑战。在这里,科学的严谨与奥运会的激情相遇,共同塑造了一种追求卓越、勇于探索的精神。
学科的奥林匹克竞赛给将会给人机智力巅峰对决提供最好的赛场。不管未来AGI能否实现,AI参加奥林匹克竞赛将会成为通向AGI的必经一站,因为这些考察了模型极具重要的 认知推理才智,而这些才智逐渐被体现于各种繁杂的现实世界场景中,比如用作软件开发的AI代理,合作处理繁杂的决策历程,甚至推动科学研讨领域(AI4Science)。
3. 构建面向 AI 奥林匹克赛场
在此背景下,上海交通大学生成式人工智能实验室 (GAIR Lab) 的研讨团队将大模型从高考考场搬到了更加具有挑战性的“奥林匹克竞技场”,推出了全新的大模型(包括多模态大模型)认知推理才智评价基准——OlympicArena。这一基准使用国际学科奥赛的高难度题目,全面尝试了人工智能在跨学科领域的认知推理才智。OlympicArena涵盖了数学、物理、化学、生物、地理、天文、计算机七大核心学科,包括62个国际学科奥赛(如IMO, IPhO, IChO, IBO, ICPC等)的11,163道中英双语题目,为研讨者们提供了一个全面评价AI模型的理想平台。
同时,更长远来看,OlympicArena为今后AI在科学领域(AI4Science),工程领域(AI4Engineering)发挥自身强大的才智,甚至促进AI激发出超越人类水平达到Superintelligence,起到了不可忽视的奠定作用。
研讨团队发现,当下所有的大模型在学科奥赛上都不能交出较好的答卷,即使是GPT-4o,仅仅只有39%的正确率,GPT-4V仅有33%,离及格线(60%正确率)还有相当大的距离。而多数开源大模型体现的更加不尽人意,例如,LLaVa-NeXT-34B, InternVL-Chat-V1.5等当下较强的多模态大模型都未达到20%的正确率。
此外,多数多模态大模型都不擅长充分利用视觉信息解决繁杂的推理任务,这也是大模型与人类最显著的差异(人类往往会优先关注处理视觉信息)。因此,OlympicArena上的尝试结果表明模型在科学题目的求解上与人类依然有所差距,其内在的推理才智仍然需要不断提高才能更好的辅助人类的科学研讨。
论文地址:https://arxiv.org/pdf/2406.12753
项目地址:https://gair-nlp.github.io/OlympicArena/
代码地址:https://github.com/GAIR-NLP/OlympicArena
OlympicArena特点
OlympicArena的特点概述,以及一个可以反应benchmark对多模态支持、多种认知才智考察、以及细粒度评价(既考虑对谜底对错的评价,又考虑对每个推理方法评价)的例题。
全面:OlympicArena包括来自62个分别奥林匹克竞赛的共11,163道题目,跨越了七大核心学科:数学、物理、化学、生物、地理、天文和计算机,涉及34个专业分支。同时,分别于以往的benchmark大多数聚焦在选择题等客观题,OlympicArena支持丰富的题型,包含表达式、方程式、区间、化学方程式的书写甚至是编程题等。此外,OlympicArena支持多模态(将近半数的题目含有图片),并采用了与现实中最贴合的文本-图象环绕的输入格式(interleaved text-image),充分尝试了大模型利用视觉信息协助进行推理的才智。
极具挑战性:与以往的benchmark要么聚焦于高中(高考)题,要么聚焦于大学题分别,OlympicArena更加聚焦于更加纯粹的繁杂推理才智的考察,而不是考察大模型对海量知识点的记忆、召回才智或是简单的应用才智。因此,OlympicArena中所有的题目均是奥赛难度。并且,为了细粒度的评价大模型在分别类型的推理才智上的体现,研讨团队还总结归纳了8种逻辑推理才智,5种视觉推理才智,后续特别综合了现有的大模型在分别类型的推理才智上体现的差异。
严谨:引导大模型的健康发展是学术界应该扮演的角色,目前在公开的benchmark中,许多流行大模型多多少少会存在数据揭发题目(即benchmark的尝试数据揭发在大模型的训练数据中)。因此研讨团队专门尝试了OlympicArena在当下一些流行大模型上的数据揭发情况,以更加严谨的验证该benchmark的有效性。
细粒度的评价:以往的benchmark往往仅评价大模型给出的最终谜底是否与正确谜底一致,这在非常繁杂的推理题目的评价中是片面的,不能很好的反映出当下模型更加真实的推理才智。因此,研讨团队除了有对谜底的评价,还加入了对题目历程(方法)正确性的评价。同时,研讨团队也从多个分别的维度进行了分别结果的综合,例如,综合模型在分别学科、分别模态、分别推理才智上的体现差异。
与相关benchmark的比较
从上表可以看出:OlympicArena无论是在学科、语言、模态的覆盖,还是在题目类型的多样性,对推理才智的考察深度,以及评价方式的全面性上,都与现存的其他一些聚焦于评测科学题目的benchmark有显著的差异。
实验综合
实验设置
研讨团队在OlympicArena上尝试了多个多模态大模型(LMM)和纯文本大模型(LLM)。对于多模态大模型,使用了文本-图象环绕(interleaved text-image)的输入形式;而对于纯文本大模型,在两种设置下进行了尝试,分别是不含任何图片信息的纯文本输入(text-only LLMs)和包含图片描述信息的纯文本输入(image caption + LLMs)。加入纯文本大模型尝试的目的不仅是为了扩大该benchmark的适用范围(使所有的LLM都能参与排行榜),更是为了更好地了解和综合现有的多模态大模型在与其对应的纯文本大模型相比时,是否能够充分利用图片信息提升其解决题目的才智。所有实验均使用zero-shot CoT prompts,研讨团队针对每种谜底类型进行了定制,并指定了输出格式以便于谜底提取和基于规则的匹配。
实验结果
分别模型在OlympicArena分别学科上的准确率,其中CS编程题用无偏pass@k指标,其余均用准确率指标。
从表格的实验结果可以看出,目前市面上所有的主流大模型都没能展现出很高的水准,即使是最先进的大模型GPT-4o,整体准确率也仅为39.97%,而其他开源模型的整体准确率则难以达到20%。这种明显的差异突显了该benchmark的挑战性,证明其在推动当前AI推理才智上限的提升上发挥了很大的促进作用。
此外,研讨团队观察到数学和物理依然是最难的两个学科,因为它们更加依赖于繁杂灵活的推理才智,推理的方法也更多,所需综合应用的思维才智也更加多样。而像生物、地理学科,准确率相对高一些,因为这类学科更注重考察利用丰富的科学知识解决、综合实际题目的才智,侧重于对溯因、因果推理才智的考察,相比繁杂的归纳、演绎推理,大模型更加善于借助自己训练阶段获得的丰富知识进行此类学科的综合。
计算机编程竞赛也被证明是非常困难的,一些开源模型甚至无法解决其中的任何题目(准确率为0),这表明当前模型在设计有效算法以用程序解决繁杂题目方面的才智依然有很大的提升空间。
值得一提的是,OlympicArena被提出的初衷不是一味追求题目难度,而是充分挖掘大模型跨学科、运用多种推理才智解决实际科学题目的才智。上述提到的运用繁杂推理的思维才智,利用丰富的科学知识解决、综合实际题目的才智,以及编写高效、准确的程序求解题目的才智,都是在科研领域不可或缺的,也是该benchmark始终侧重的。
细粒度的实验综合
为了实现更细粒度的实验结果综合,研讨团队基于分别的模态和推理才智进行了进一步评价。此外,研讨团队还进行了模型在题目推理历程上的评价综合。主要发现如下:
模型在分别的逻辑推理和视觉推理才智上体现各异
各模型在逻辑推理和视觉推理才智上的体现。逻辑推理才智包括:演绎推理(DED)、归纳推理(IND)、溯因推理(ABD)、类比推理(ANA)、因果推理(CAE)、批判性思维(CT)、分解推理(DEC)和定量推理(QUA)。视觉推理才智包括:模式识别(PR)、空间推理(SPA)、图表推理(DIA)、符号解释(SYB)和视觉比较(COM)。
几乎所有模型在分别逻辑推理才智上的体现趋势相似。它们在溯因推理和因果推理方面体现突出,能够很好地从提供的信息中识别因果关系。相反,模型在归纳推理和分解推理方面体现较差。这是由于奥林匹克级别题目的多样性和非常规性,这些题目需要将繁杂题目分解为较小的子题目的才智,这依赖于模型成功求解每一个子题目,并将子题目组合起来解决更大的题目。在视觉推理才智方面,模型在模式识别和视觉比较方面体现较好。
然而,它们在涉及空间和几何推理的任务以及需要理解抽象符号的任务中体现较为困难。从对分别推理才智的细粒度综合来看,大模型所欠缺的才智(如对繁杂题目的分解,对几何图形的视觉推理等)正是科学研讨中不可或缺、至关重要的才智,表明了AI离真正可以全方位辅助人类进行科学研讨还有一段距离。
分别多模态模型(LMMs)及其对应的纯文本模型(LLMs)在三种分别实验设置中的比较。
大多数多模态模型(LMMs)依然不擅长利用视觉信息协助进行推理
如上图(a)所示,只有少数多模态大模型(如GPT-4o和Qwen-VL-Chat)在有图象输入时相对于其对应的纯文本模型体现出显著的性能提高。许多多模态大模型在图象输入时没有体现出性能提升,甚至在处理图象时体现出效果下降。可能的原因包括:
当文本和图象一起输入时,LMMs可能更多地关注文本,忽略图象中的信息。
一些LMMs在基于其文本模型训练视觉才智时,可能会丧失其固有的一些语言才智(例如,推理才智),这在本项目的繁杂场景中尤为明显。
该benchmark的题目使用了繁杂的文本-图象环绕的输入格式,一些模型无法很好地支持这一格式,导致其不能很好的处理和理解嵌入文本中的图象位置信息。
而在科学研讨中,往往伴随着非常海量的图表、几何图形、可视化数据等视觉信息,只有当AI可以娴熟的使用其视觉才智协助推理时,才可以有助于推动科学研讨的效率和创新,成为解决繁杂科学题目强有力的工具。
左图:所有模型在所有进行推理历程评价的题目中的,谜底的正确率和历程的正确率的相关性。右图:过失历程方法位置的分布。
推理方法的评价结果综合
通过对模型推理方法进行正确性的细粒度评价,研讨团队发现:
如上图(b)所示,方法层面评价的结果和仅仅依靠谜底的评价之间通常具有高度一致性。当模型生成正确谜底时,其推理历程的质量大多较高。
推理历程的准确率通常高于只看谜底的准确率。这表明即使是非常繁杂的题目,模型也能正确执行一些中间方法。因此,模型在认知推理方面可能具有显著的潜力,这为研讨人员开辟了新的研讨方向。研讨团队还发现,在某些学科中,一些在只参照谜底评价时体现良好的模型在推理历程上体现不佳。研讨团队推测这是因为模型在生成谜底时有时会忽略中间方法的合理性,尽管这些方法对最终结果可能并不关键。
此外,研讨团队对过失方法的位置分布进行了统计综合(见图c),发现较高比例的过失发生在一题中较后的推理方法。这表明随着推理历程的累积,模型更容易出错,并产生过失的累积,这表明模型在处理长链逻辑推理时仍然有很大的提升空间。
团队也呼吁所有研讨者在AI推理任务中更多地关注模型推理历程的监督和评价。这不仅可以提高AI系统的可信度和透明度,帮助更好地理解模型的推理路径,还能识别出模型在繁杂推理中的薄弱环节,从而指导改进模型结构和训练方法。通过细致的历程监督,可以进一步挖掘AI的潜力,推动其在科学研讨和实际应用中的广泛应用。
模型过失类型的综合
研讨团队采样了 GPT-4V 回答过失的112道题(每个学科 16 道题目,其中 8 道为纯文本题目,8 道为多模态题目),并人工标注这些过失的原因。如上图,推理过失(包括逻辑推理过失和视觉推理过失)构成了最大的过失原因,这表明我们的基准有效地突显了当前模型在认知推理才智方面的不足,这与研讨团队的初衷是吻合的。
此外,相当一部分过失也来源于知识的缺乏(虽然奥赛的题目仅仅以高中知识为基础范围),这表明当前模型在缺乏领域知识之外,更多的无法利用这些知识来辅助推理。另一个比较多的过失原因是理解偏差,这可以归因于模型对上下文的误解以及整合繁杂语言结构和多模态信息的困难。
一个GPT-4V在数学奥赛题上犯错的例子
数据揭发检测
检测到的泄漏样本数量以及相应的纯文本和多模态模型在这些样本题目上做对的数量。
随着预训练语料规模不断扩大,检测benchmark上潜在的数据泄漏至关重要。而预训练历程的不透明通常使这项任务具有挑战性。为此,研讨团队采用了一种新提出的实例级泄漏检测指标,称为“N-gram预测准确性”。这一指标均匀地从每个实例中抽取几个起始点,预测每个起始点的下一个N-gram,并检查所有预测的N-gram是否正确,以判断模型是否可能在训练阶段遇到过该实例。研讨团队将这一指标应用于所有可用的基础模型。
如上图所示,主流模型在OlympicArena上并没有显著的数据揭发题目,哪怕有揭发,数量相对于完整的benchmark数据集来说微不足道。例如,泄漏最多的Qwen1.5-32B模型也仅仅被检测出43个疑似揭发的实例。这也自然而然引发了一个题目:模型能正确回答揭发的这些实例题目吗?
在这个题目上,研讨团队很惊讶的发现,即使是揭发的题目,相应的模型能回答正确的也非常少。这些结果都表明,该benchmark几乎没有遭受数据揭发的影响,并且保持着相当大的挑战性,可以在接下来很长的时间保持其有效性。
结语
尽管OlympicArena具有非常高的价值,但研讨团队表示未来仍有不少工作要做。首先,OlympicArena benchmark不可避免地会引入了一些噪声数据,作者将积极利用社区反馈来不断改进完善。此外,研讨团队还计划每年发布基准尝试的新版本,以进一步减轻与数据揭发相关的题目。此外,从更长远来讲,当前的基准尝试仅限于评价模型解决繁杂题目的才智。
在未来,所有人更希望人工智能能够协助完成繁杂的综合任务,并在实际应用中展示价值,例如AI4Science和AI4Engineering,这将是未来基准设计的目标和宗旨。尽管如此,目前OlympicArena依然作为促进AI走向Superintelligence的催化剂,发挥着重要的作用。
愿景:人类与AI共同进步的辉煌时刻
在未来,我们有理由相信,随着AI技术的不断成熟和应用场景的不断拓展,OlympicArena将不仅仅是一个评价AI才智的赛场,更将成为一个展示AI在各个领域应用潜力的舞台。无论是在科学研讨、工程设计,还是在体育竞技等更广泛的领域,AI都将以其独特的方式,为人类社会的发展贡献力量。
最后,研讨团队也表示学科奥林匹克赛场也将仅仅是OlympicArena的一个开始,AI更多的才智值得不断的探索,例如奥林匹克体育赛场将在未来成为具身智能的竞技场。
参考链接:
[1] reStructured Pre-training, arXiv 2022, Weizhe Yuan, Pengfei Liu