google公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学课题,并成功办理了国际数学奥林匹克竞赛的部分课题。
google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和google内部的 HiddenMath 基准进行尝试。
根据google的数据,数学型 Gemini 1.5 Pro 在数学基准尝试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准尝试中办理的课题明显增多,在其他基准尝试中的得分也有所提高。
google官方分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 办理的,而一个是由标准的 Gemini 1.5 Pro 变体错误办理的。这些课题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确谜底。IT之家附上相关截图如下:
除了课题之外,google还分享了 Gemini 1.5 Pro 基准尝试的重要细节。这些数据表明,在所有五项基准尝试课题中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。
google表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%,在对 256 个办理方案进行采样并选择一个候选谜底时(rm@256),准确率达到 91.1%。
参考
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context