声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

AI
5月21日
编辑

故渊

google公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学课题，并成功办理了国际数学奥林匹克竞赛的部分课题。google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和google内部的 HiddenMath 基准进行尝试。根据google的数据，数学型 Gemini 1.5 Pro 在数学基准尝试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

google公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学课题，并成功办理了国际数学奥林匹克竞赛的部分课题。

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和google内部的 HiddenMath 基准进行尝试。

根据google的数据，数学型 Gemini 1.5 Pro 在数学基准尝试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5 Pro 在 AIME 基准尝试中办理的课题明显增多，在其他基准尝试中的得分也有所提高。

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

google官方分享的三个示例中，两个是由数学专用的 Gemini 1.5 Pro 办理的，而一个是由标准的 Gemini 1.5 Pro 变体错误办理的。这些课题通常要求解题者回忆代数中的基本数学公式，并依靠它们的分段和其他数学规则得出正确谜底。IT之家附上相关截图如下：

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

除了课题之外，google还分享了 Gemini 1.5 Pro 基准尝试的重要细节。这些数据表明，在所有五项基准尝试课题中，Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

google表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%，在对 256 个办理方案进行采样并选择一个候选谜底时（rm@256），准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

给TA打赏

共{{data.count}}人

人已打赏

1.5 Gemini Pro 基准数学

OpenAI GPT-4o 推动 ChatGPT 定阅服务需求激增，静止端营收暴涨

2024-5-20 23:11:04

三句不离 AI：google 2024 I / O 开发者大会一文汇总，Gemini、Veo、Imagen 大模型深夜炸场

2024-5-21 9:59:37

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
TOP3

ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发
12月4日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部