谷歌的 Gemini 到底几斤几两?和 OpenAI 的 GPT 模型相比浮现如何?CMU 这篇论文测明白了。
前段时间,谷歌发布了对标 OpenAI GPT 模型的竞品 ——Gemini。这个大模型共有三个版本 ——Ultra(本领最强)、Pro 和 Nano。研究团队公布的尝试结果显示,Ultra 版本在许多任意中优于 GPT4,而 Pro 版本与 GPT-3.5 不相上下。
尽管这些对比结果对大型言语模型研究具有重要意义,但由于确切的评估细节和模型预测尚未公开,这限制了对尝试结果的复现、检测,难以进一步分析其隐含的细节。
为了了解 Gemini 的真正实力,来自卡内基梅隆大学、BerriAI 的研究者对该模型的言语理解和生成本领进行了深入探索。
他们在十个数据集上尝试了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文本理解和生成本领。具体来说,他们在 MMLU 上尝试了模型回答基于知识的成绩的本领,在 BigBenchHard 上尝试了模型的推理本领,在 GSM8K 等数据集中尝试了模型解答数学成绩的本领,在 FLORES 等数据集中尝试了模型的翻译本领;在 HumanEval 等数据集中尝试了模型的代码生成本领;在 WebArena 中尝试了模型作为遵循指令的智能体的本领。
下表 1 展示了对比的主要结果。总体而言,截至论文发稿日,在所有任意中,Gemini Pro 在准确性上接近 OpenAI GPT 3.5 Turbo,但仍然稍逊一筹。此外,他们还发现,Gemini 和 GPT 比开源竞品模型 Mixtral 浮现要好一些。
在论文中,作家对每项任意都进行了深入的描述和分析。所有结果和可复现的代码可参阅:https://github.com/neulab/gemini-benchmark
论文链接:https://arxiv.org/pdf/2312.11444.pdf
实验设置
作家选择了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 四个模型作为尝试对象。
由于此前有研究在评估时存在实验设置方面的差异,为确保尝试公平,作家采取了完全相同的提醒词和评估协议重新运行了实验。在大多数测评中,他们采用了提醒词和来自标准资源库的评价标准。这些尝试资源来自模型发布时附带的数据集以及测评工具 Eleuther 等。其中,提醒词通常包含查询、输入、少量示例和思维链推理等。在某些特殊测评中,作家发现有必要对标准实践进行小幅调整。调整偏差已在对应的代码储存库中执行,请查阅论文原文。
这项研究的目标如下:
1. 通过可复现的代码和完全透明的结果,提供对 OpenAI GPT 和 Google Gemini 模型本领的第三方客观比较。
2. 深入研究测评结果,分析两个模型在哪些领域中的浮现更加突出。
基于知识的问答(Knowledge-based QA)
作家从 MMLU 数据集中选择了 57 个基于知识的多项选择问答任意,涵盖了 STEM 以及人文社科等各种主题。MMLU 共有 14,042 个尝试样本,已经广泛用于对大型言语模型的知识本领进行整体评估。
作家比较并分析了四个尝试对象在 MMLU 上的整体浮现(如下图所示)、子任意浮现以及输出长度对浮现的影响。
图 1:使用 5 个样本提醒和思维链提醒,各个模型在 MMLU 上的总体准确率。
从图中可以看到,Gemini Pro 的准确性低于 GPT 3.5 Turbo,并且远低于 GPT 4 Turbo。在使用思维链提醒时,各模型浮现差异不大。作家推测这是由于 MMLU 主要收录的是基于知识的问答任意,这些任意可能不会从更强的推理导向提醒中显著受益。
值得注意的是,MMLU 中的所有成绩都是单选题,有 A 到 D 四个按顺序排列的潜在谜底。下图中展示了每个模型选择每个谜底选项的比例。从图中可以看到 Gemini 的谜底分布非常倾斜,偏向于选择最后的 D 选项。这与各版本的 GPT 给出的更加平衡的结果形成了对比。这可能表明,Gemini 没有接受与多选题相关的大量指令调整,导致模型在谜底排序方面存在偏见。
图 2:被测模型预测的单选题谜底的比例。
下图展示了被测模型在 MMLU 尝试集的子任意上的浮现。与 GPT 3.5 相比,Gemini Pro 在大多数任意上的浮现不佳。思维链提醒降低了子任意之间的方差。
图 3:被测模型在每个子任意上的准确率。
作家深入探讨了 Gemini Pro 的强项和弱项。从图 4 中可以观察到,Gemini Pro 在人类性别(社会科学)、形式逻辑(人文科学)、初等数学(STEM) 和专业医学(专业领域)任意中落后于 GPT 3.5。在 Gemini Pro 更擅长的两个任意中,领先优势也很微弱。
图 4:Gemini Pro 和 GPT 3.5 在 MMLU 上的优势任意。
Gemini Pro 在特定任意上的浮现不佳可以归因于两个原因。首先,在某些情况下,Gemini 无法返回谜底。在大多数 MMLU 子任意中,API 响应率超过 95%,但在道德(响应率 85%)、人类性别(响应率 28%)这两个任意的相应率明显较低。这表明 Gemini 在一些任意中本能较低可能是由于输入的内容过滤器。其次,Gemini Pro 在解决形式逻辑和基础数学任意所需的基本数学推理方面的浮现稍差。
作家还分析了思维链提醒中的输出长度如何影响模型本能,如图 5 所示。一般来说,更强大的模型倾向于进行更复杂的推理,因此会输出更长的回答。与「对手」相比,Gemini Pro 有一个值得注意的优势:它的准确性受输出长度的影响较小。当输出长度超过 900 时,Gemini Pro 甚至优于 GPT 3.5。然而,与 GPT 4 Turbo 相比,Gemini Pro 和 GPT 3.5 Turbo 很少能输出长推理链。
图 5:被测模型在 MMLU 上的输出长度分析。
通用推理(General-purpose Reasoning)
在 BIG-Bench Hard 尝试集中,作家对被测对象展开了通用推理本领的测评。BIG-Bench Hard 包含 27 个不同的推理任意,如算术、符号和多言语推理、事实知识理解等任意。大多数任意由 250 个成绩 – 谜底对组成,少数任意的成绩数量稍少一些。
图 6 中展示的是被测模型的整体准确率。可以看出,Gemini Pro 的准确率略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。相比之下,Mixtral 模型的准确率还要低得多。
图 6:被测模型在 BIG-Bench-Hard 上的整体准确率。
作家更深入地探讨了为什么 Gemini 通用推理整体浮现不佳。首先,他们按成绩的长度检查了准确率。如图 7 所示,Gemini Pro 在更长、更复杂的成绩上浮现不佳。而 GPT 模型,特别是 GPT 4 Turbo,即使在非常长的成绩中, GPT 4 Turbo 的退步也非常小。这表明它的鲁棒性很强,能够理解更长和更复杂的提问和查询。GPT 3.5 Turbo 的鲁棒性一般。Mixtral 在成绩长度方面浮现稳定,但整体准确率较低。
图 7:被测模型在 BIG-Bench-Hard 上按成绩长度划分的准确率。
作家分析了被测模型在 BIG-Bench-Hard 具体任意中是否存在准确率的差异。图 8 中展示了 GPT 3.5 Turbo 在哪些任意上比 Gemini Pro 浮现更好。
在「追踪变换物体的位置」的任意中,Gemini Pro 的浮现特别糟糕。这些任意涉及人们交换物品并追踪谁是某项物品的拥有者,但 Gemini Pro 经常难以保持正确的顺序。
图 8:GPT 3.5 Turbo 优于 Gemini Pro 的 BIG-Bench-Hard 子任意 。
在需要多步解的算术题、查找翻译中的错误等任意中,Gemini Pro 逊于 Mixtral。
也有 Gemini Pro 优于 GPT 3.5 Turbo 的任意。图 9 展示了 Gemini Pro 以最大优势领先于 GPT 3.5 Turbo 的六个任意。这些任意是异构的,包括需要世界知识的(sports_understanding)、操作符号堆栈(dyck_languages)、按字母顺序对单词进行排序(word_sorting)以及解析表格(penguins_in_a_table)等。
图 9:Gemini Pro 优于 GPT 3.5 的 BIG-Bench-Hard 子任意。
作家进一步分析了被测模型在不同谜底类型中的鲁棒性,如图 10 所示。Gemini Pro 在「Valid/Invalid」谜底类型中的浮现最差,该谜底类型属于任意 formal_fallacies。有趣的是,该任意有 68.4% 的成绩没有回答响应。然而,在其它(由 word_sorting 和 dyck_language 任意组成)的谜底类型中,Gemini Pro 浮现优于所有 GPT 模型与 Mixtral。即 Gemini Pro 特别擅长重新排列单词和按正确顺序生成符号。另外,对于 MCQ 谜底,有 4.39% 的成绩被 Gemini Pro 阻止回应。GPT 模型在这方面浮现出色,Gemini Pro 难以与它们竞争。
图 10:被测模型在 BIG-Bench-Hard 上按谜底类型划分的准确性。
总之,似乎没有哪个模型在特定任意上一马当先。因此,在执行通用推理任意时,不妨在 Gemini 和 GPT 模型中都尝试一下,然后再决定使用哪个模型。
数学本领
为了评估被测模型的数学推理本领,作家选择了四个数学成绩基准尝试集:
(1)GSM8K:小学数学基准尝试;
(2)SVAMP :通过改变单词顺序生成成绩来检查鲁棒推理本领;
(3)ASDIV:具有不同的言语模式和成绩类型;
(4)MAWPS:包含算术和代数词成绩。
作家比较了 Gemini Pro 、GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 在四个数学成绩尝试集上的准确性,检查了它们的整体本能、不同成绩复杂度下的本能以及不同思维链深度下的本能。
图 11 呈现了整体结果,Gemini Pro 在包含不同言语模式的 GSM8K、SVAMP 和 ASDIV 的任意中,准确性略低于 GPT 3.5 Turbo,远低于 GPT 4 Turbo。对于 MAWPS 中的任意,尽管所有被测模型的准确性都超过 90%,但 Gemini Pro 仍然略逊于 GPT 模型。在这个任意中,GPT 3.5 Turbo 以微弱的优势胜过了 GPT 4 Turbo。相比之下,Mixtral 模型的准确性远低于其他模型。
图 11:被测模型在四个数学推理尝试集任意中的整体准确性。
图 12 中展示了每个模型对成绩长度的鲁棒性。与 BIG-Bench Hard 中的推理任意类似,被测模型在回答较长的成绩时,准确性有所下降。GPT 3.5 Turbo 在较短的题目上浮现优于 Gemini Pro,但退步的速度更快,Gemini Pro 在较长的题目的准确性上与 GPT 3.5 Turbo 类似,但仍稍稍落后。
图 12:被测模型在四个数学推理尝试集任意中,对于不同成绩长度的生成谜底的准确性。
此外,作家还观察到当谜底需要更长的思维链时,被测模型的准确性也有不同。如图 13 所示,即使使用长推理链时,GPT 4 Turbo 也非常鲁棒,而 GPT 3.5 Turbo、Gemini Pro 和 Mixtral 在 COT 长度不断增加时浮现出力不从心。通过分析,作家还发现,在 COT 长度超过 100 的复杂例子中,Gemini Pro 优于 GPT 3.5 Turbo,但在较短的例子中浮现不佳。
图 13:不同思维链长度下,各模型在 GSM8K 上的准确性。
图 14 显示了被测模型对于不同数字数量在生成谜底时的准确性。作家根据谜底中的数字数量是 1 个、2 个还是 3 个以上创建了三个「桶」(除了 MAWPS 任意,该任意的谜底没有超过两位数的数字)。如图所示,GPT 3.5 Turbo 似乎对多位数的数学成绩更加鲁棒,而 Gemini Pro 在更多数字的成绩上有所退化。
图 14:各个模型在四个数学推理尝试集任意中在谜底数字数量不同时的准确性。
代码生成
在这一部分,作家使用两个代码生成数据集 ——HumanEval 和 ODEX—— 来检验模型的编码本领。前者尝试模型对 Python 标准库中有限的一组函数的基本代码理解本领,后者尝试模型使用整个 Python 生态系统中更广泛的库集的本领。这两个成绩的输入都是用英语编写的任意说明(通常带有尝试用例)。这些成绩用来评估模型的言语理解本领、算法理解本领和初等数学本领。总的来说,HumanEval 有 164 个尝试样本,ODEX 有 439 个尝试样本。
首先,从图 15 所示的总体结果中,可以看到 Gemini Pro 在两项任意上的 Pass@1 分数均低于 GPT 3.5 Turbo,也远低于 GPT 4 Turbo。这些结果表明,Gemini 的代码生成本领还有待提高。
图 15:各个模型在代码生成任意中的总体准确性。
其次,作家在图 16 (a) 中分析了 gold solution 长度与模型本能之间的关系。解的长度可以在一定程度上说明相应代码生成任意的难度。作家发现,Gemini Pro 在解的长度低于 100 时(如较容易的情况),实现了与 GPT 3.5 相当的 Pass@1 分数,但当解的长度变长时,它就会大幅落后。这与前几节的结果形成了有趣的对比,在前几节中,作家发现一般情况下,Gemini Pro 在英语任意中对较长的输入和输出都能浮现稳健。
作家还在图 16 (b) 中分析了每个解所需的库对模型本能的影响。在大多数库用例中,如 mock、pandas、numpy 和 datetime,Gemini Pro 的本能比 GPT 3.5 差。不过,在 matplotlib 的用例中,它的本能要优于 GPT 3.5 和 GPT 4,这表明它在通过代码执行绘图可视化时具有更强的本领。
最后,作家展示了几个具体的失败案例,在这些案例中,Gemini Pro 在代码生成方面的浮现比 GPT 3.5 差。首先,他们注意到 Gemini 在正确选择 Python API 中的函数和参数方面略逊一筹。例如,给定以下提醒:
Gemini Pro 生成了以下代码,结果出现了类型不匹配错误:
相比之下,GPT 3.5 Turbo 使用了以下代码,达到了预期效果:
此外,Gemini Pro 的错误比例较高,在这种情况下,执行的代码在语法上是正确的,但不能正确地与更复杂的意图相匹配。例如,关于以下提醒:
Gemini Pro 创建了一种实现方法,只提取唯一的数字,而不删除那些出现多次的数字。
机器翻译
这组实验使用 FLORES-200 机器翻译基准评估了模型的多言语本领,特别是在各种言语对之间的翻译本领。作家将重点放在 Robinson et al. (2023) 的分析所使用的 20 种言语的不同子集上,这些言语涵盖不同程度的资源可用性和翻译难度。作家对所有选定言语对的尝试集中的 1012 个句子进行了评估。
在表 4 和表 5 中,作家对 Gemini Pro、GPT 3.5 Turbo 和 GPT 4 Turbo 与谷歌翻译等成熟系统进行了比较分析。此外,他们还对 NLLB-MoE 进行了基准尝试,NLLB-MoE 是领先的开源机器翻译模型,以其广泛的语种覆盖而著称。结果表明,谷歌翻译总体上优于其他模型,在 9 种言语上浮现出色;其次是 NLLB,在 0/5-shot 设置下,在 6 种 / 8 种言语上浮现出色。通用言语模型显示出具有竞争力的本能,但在翻译成非英语言语方面尚未超越专用机器翻译系统。
表 4:各模型使用 0-shot 提醒对所有言语进行机器翻译的本能(chRF (%) 分数)。最佳分数以粗体显示,次佳分数以下划线显示。
表 5:各模型使用 5-shot 提醒对所有言语进行机器翻译的本能(chRF (%) 分数)。最佳分数以粗体显示,次佳分数以下划线显示。
图 17 显示了通用言语模型在不同言语对中的本能比较。与 GPT 3.5 Turbo 和 Gemini Pro 相比,GPT 4 Turbo 与 NLLB 浮现出一致的本能偏差。GPT 4 Turbo 在低资源言语方面也有较大改进,而在高资源言语方面,两种 LLM 的本能相似。相比之下,在 20 种言语中的 8 种言语上,Gemini Pro 的本能优于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 种言语上取得了最高本能。不过,Gemini Pro 在大约 10 种言语对中浮现出强烈的屏障响应(block response)倾向。
图 17:按言语对划分的机器翻译本能(chRF (%) 分数)。
图 18 显示,Gemini Pro 在这些言语中的本能较低,这是因为它倾向于在置信度较低的场景中屏障响应。如果 Gemini Pro 在 0-shot 或 5-shot 配置中产生「Blocked Response」错误,则该响应被视为「屏障」。
图 18:被 Gemini Pro 屏障的样本数量。
仔细观察图 19 可以发现,Gemini Pro 在置信度较高的无屏障样本中略微优于 GPT 3.5 Turbo 和 GPT 4 Turbo。具体来说,它在 5-shot 和 0-shot 设置下分别比 GPT 4 Turbo 多出 1.6 chrf 和 2.6 chrf,比 GPT 3.5 Turbo 多出 2.7 chrf 和 2 chrf。不过,作家对 GPT 4 Turbo 和 GPT 3.5 Turbo 在这些样本上的本能进行的初步分析表明,这些样本的翻译通常更具挑战性。Gemini Pro 在这些特定样本上浮现不佳,尤其明显的是,Gemini Pro 0-shot 会屏障响应,而 5-shot 则不会,反之亦然。
图 19:屏障和非屏障样本的 chrf 本能(%)。
在对模型的整个分析过程中,作家观察到,few-shot 提醒一般都能适度提高平均本能,其 variance pattern 依次递增:GPT 4 Turbo < GPT 3.5 Turbo < Gemini Pro。虽然 Gemini Pro 的 5-shot 提醒在置信度高的言语中比 0-shot 提醒有进步,但在某些言语中,如 hau_Latin,该模型的置信度明显降低,导致应答受阻(参见表 5)。
图 20 显示了按语系或 script 分类的明显趋势。一个重要的观察结果是,Gemini Pro 在西里尔文字上的浮现与其他机型相比具有竞争力,但在其他文字上的浮现却不尽如人意。GPT-4 在各种 script 上的浮现突出,优于其他模型,其中 few-shot 提醒尤为有效。这种效果在使用梵文的言语中尤为明显。
图 20:各个模型在不同 script 上的浮现 (chrf (%))。
Web 智能体
最后,作家考察了每个模型作为网络导航智能体的本领,这是一项需要长期规划和复杂数据理解的任意。他们使用了模拟环境 WebArena,该环境成功的标准是执行结果。赋予智能体的任意包括信息搜索、网站导航以及内容和配置操作。任意涉及各种网站,包括电子商务平台、社交论坛、协同软件开发平台(如 gitlab)、内容管理系统和在线地图。
作家尝试了 Gemini-Pro 的总体成功率、不同任意的成功率、响应长度、轨迹步数以及预测任意无法完成的倾向。表 6 列出了总体本能。Gemini-Pro 的浮现与 GPT-3.5-Turbo 接近,但略逊一筹。与 GPT-3.5-Turbo 类似,当提醒提到任意可能无法完成时(UA hint),Gemini-Pro 的浮现更好。在有 UA hint 的情况下,Gemini-Pro 的总体成功率为 7.09%。
表 6:各个模型在 WebArena 上的浮现。
如果按网站类型进行细分,如图 21 所示,可以看到 Gemini-Pro 在 gitlab 和地图上的浮现不如 GPT-3.5-Turbo,而在购物管理、reddit 和购物网站上的浮现则接近 GPT-3.5-Turbo。在多站点任意上,Gemini-Pro 的浮现优于 GPT-3.5-Turbo,这与之前的结果一致,即 Gemini 在各种基准的更复杂子任意上浮现更好一些。
图 21:模型在不同类型网站上的 Web 智能体成功率。
如图 22 所示,一般来说,Gemini-Pro 把更多的任意预测为无法完成,尤其是在给出一个 UA hint 的情况下。Gemini-Pro 在给出 UA hint 的情况下,预测 80.6% 以上的任意无法完成,而 GPT-3.5-Turbo 只预测了 47.7%。需要注意的是,数据集中仅有 4.4% 的任意实际上是无法完成的,因此两者都远远高估了无法完成的任意的实际数量。
图 22:UA 预测数量。
同时,作家观察到,Gemini Pro 更倾向于用较短的短语做出回应,在得出结论前采取较少的步骤。如图 23 (a) 所示,Gemini Pro 有一半以上的轨迹少于 10 步,而 GPT 3.5 Turbo 和 GPT 4 Turbo 的大多数轨迹在 10 到 30 步之间。同样,Gemini 的大部分回复长度不到 100 个字符,而 GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 的大部分回复长度超过 300 个字符(图 23 (b))。Gemini 倾向于直接预测行动,而其他模型则会先进行推理,然后给出行动预测。
图 23:模型在 WebArena 上的行为。
更多细节请参考原论文。