声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

AI
5月21日
编辑

故渊

google公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学课题，并成功办理了国际数学奥林匹克竞赛的部分课题。google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和google内部的 HiddenMath 基准进行尝试。根据google的数据，数学型 Gemini 1.5 Pro 在数学基准尝试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

google公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学课题，并成功办理了国际数学奥林匹克竞赛的部分课题。

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

google针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和google内部的 HiddenMath 基准进行尝试。

根据google的数据，数学型 Gemini 1.5 Pro 在数学基准尝试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5 Pro 在 AIME 基准尝试中办理的课题明显增多，在其他基准尝试中的得分也有所提高。

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

google官方分享的三个示例中，两个是由数学专用的 Gemini 1.5 Pro 办理的，而一个是由标准的 Gemini 1.5 Pro 变体错误办理的。这些课题通常要求解题者回忆代数中的基本数学公式，并依靠它们的分段和其他数学规则得出正确谜底。IT之家附上相关截图如下：

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

声称“媲美人类专家”，google Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

除了课题之外，google还分享了 Gemini 1.5 Pro 基准尝试的重要细节。这些数据表明，在所有五项基准尝试课题中，Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

google表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%，在对 256 个办理方案进行采样并选择一个候选谜底时（rm@256），准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

给TA打赏

共{{data.count}}人

人已打赏

1.5 Gemini Pro 基准数学

OpenAI GPT-4o 推动 ChatGPT 定阅服务需求激增，静止端营收暴涨

2024-5-20 23:11:04

三句不离 AI：google 2024 I / O 开发者大会一文汇总，Gemini、Veo、Imagen 大模型深夜炸场

2024-5-21 9:59:37

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

MIT计算机科学家意外发现，量子纠缠会「突然消亡」
8月29日
TOP2

百度英伟达联合举办！全球规模最大智能体大赛开幕
8月29日
TOP3

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature
8月29日
比尔・盖茨用 AI 对付蚊子，助力消灭疟疾
8月27日
我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值
8月29日
Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」
8月26日
AI 行业风光背后：80% 项目会失败，5 大原因导致
8月30日
新手必看！5 款 Flux 实用基础工作流（附资源包）
8月28日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部