声称“媲美人类专家”,google Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

google公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学课题,并成功办理了国际数学奥林匹克竞赛的部分课题。google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和google内部的 HiddenMath 基准进行尝试。根据google的数据,数学型 Gemini 1.5 Pro 在数学基准尝试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5

google公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学课题,并成功办理了国际数学奥林匹克竞赛的部分课题。

声称“媲美人类专家”,google Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和google内部的 HiddenMath 基准进行尝试。

根据google的数据,数学型 Gemini 1.5 Pro 在数学基准尝试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准尝试中办理的课题明显增多,在其他基准尝试中的得分也有所提高。

声称“媲美人类专家”,google Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,google Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

google官方分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 办理的,而一个是由标准的 Gemini 1.5 Pro 变体错误办理的。这些课题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确谜底。IT之家附上相关截图如下:

声称“媲美人类专家”,google Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,google Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,google Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

除了课题之外,google还分享了 Gemini 1.5 Pro 基准尝试的重要细节。这些数据表明,在所有五项基准尝试课题中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

google表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%,在对 256 个办理方案进行采样并选择一个候选谜底时(rm@256),准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

给TA打赏
共{{data.count}}人
人已打赏
AI

OpenAI GPT-4o 推动 ChatGPT 定阅服务需求激增,静止端营收暴涨

2024-5-20 23:11:04

AI

三句不离 AI:google 2024 I / O 开发者大会一文汇总,Gemini、Veo、Imagen 大模型深夜炸场

2024-5-21 9:59:37

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索