声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

谷歌公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5

谷歌公司上周发布技术报告,表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后,大幅提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型,并通过 MATH 基准、美国数学邀请考试( AIME) 和谷歌内部的 HiddenMath 基准进行测试。

根据谷歌的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”,与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

谷歌官方分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 解决的,而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。IT之家附上相关截图如下:

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

声称“媲美人类专家”,谷歌 Gemini 1.5 Pro 数学版“提智”:MATH 基准准确率 91.1%

除了问题之外,谷歌还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。

谷歌表示数学衍生版 Gemini 1.5 Pro 单个样本 MATH 基准准确率为 80.6%,在对 256 个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到 91.1%。

参考

Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

相关资讯

自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

谷歌确认 Gemini Nano 本地大模型不会上线 Pixel 8 手机

谷歌官方表示,由于硬件限制,AI 语言大模型 Gemini Nano 不会上线谷歌 Pixel 8 手机,但未来会出现在其他高端设备上。IT之家获悉,Gemini 的前身是谷歌在 2023 年 2 月发布的聊天机器人 Bard,后者在 2024 年 2 月 8 日更名为 Gemini。谷歌计划将 Gemini 整合进旗下所有产品,并加入 Google One 订阅中。Gemini Nano 作为谷歌为移动设备推出的 Gemini 大模型版本,能够处理不需要连接外部服务器的本地任务,仅支持谷歌 Pixel 8 Pro

Gemini 修 bug 神了!录网页视频把代码库甩给它就行,网友想要访问权限

谷歌 Gemini 修改 bug 让网友大开眼界!X 一小伙分享,为测试 Gemini 1.5 Pro,自己在编写一个网页的代码时故意留了 3 个 bug,并分别录制了网页 bug 视频。接着把代码库打包成文件连同视频一起输给了 Gemini 1.5 Pro,提示它找到并修复代码中的所有 bug,且要提供一个简要指南以及所做更改的说明。没想到,Gemini 1.5 Pro 还真就分分钟正确识别并修复了每一个 bug。小伙将这种玩法 po 出来后热度不断攀升,网友们纷纷一键三连,转赞收藏量过万。其本人还在评论区强调,