谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

应用
8月2日
编辑

机器之心

这么强的模型，谷歌给大家免费试用。近两日，谷歌在不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后，刚刚，Gemini 1.5 Pro 实验版本 (0801) 已经推出。用户可以通过 Google AI Studio 和 Gemini API 进行测试和反馈。既然免费，那我们帮大家测试一下最近比较火的比大小问题。当我们问 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪个数大时，模型一次就能回答正确，并给出了理由。当我们继续追问「Strawberry 单词里面有多少个 r」时，

这么强的模型，谷歌给大家免费试用。

近两日，谷歌在不断发布最新研究。继昨日放出最强端侧 Gemma 2 2B 小模型后，刚刚，Gemini 1.5 Pro 实验版本 (0801) 已经推出。

用户可以通过 Google AI Studio 和 Gemini API 进行测试和反馈。

既然免费，那我们帮大家测试一下最近比较火的比大小问题。当我们问 Gemini 1.5 Pro (0801) 9.9 和 9.11 哪个数大时，模型一次就能回答正确，并给出了理由。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

当我们继续追问「Strawberry 单词里面有多少个 r」时，然而 Gemini 1.5 Pro (0801) 却翻车了。在提示语中施加「咒语」一步一步来，模型分析到第四步就出错了。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

Google AI Studio 测试地址：https://aistudio.google.com/app/prompts/new_chat

不过，从官方评测来看，Gemini 1.5 Pro (0801) 各项指标还是很能打的。新模型迅速夺得著名的 LMSYS Chatbot Arena 排行榜榜首，并拥有令人印象深刻的 ELO 分数，得分为 1300。

这一成就使 Gemini 1.5 Pro (0801) 领先于 OpenAI 的 GPT-4o（ELO：1286）和 Anthropic 的 Claude-3.5 Sonnet（ELO：1271）等强大竞争对手，这或许预示着人工智能格局的转变。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

Gemini 团队关键成员 Simon Tokumine 称 Gemini 1.5 Pro (0801) 是谷歌迄今为止制造的最强大、最智能的 Gemini （模型）。

除了拿到 Chatbot Arena 榜首，Gemini 1.5 Pro (0801) 在多语言任务、数学、Hard Prompt 和编码等领域也表现相当出色。

具体而言，Gemini 1.5 Pro (0801) 在中文、日语、德语、俄语方面均表现第一。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

但在编码、Hard Prompt 领域，Claude 3.5 Sonnet、GPT-4o、Llama 405B 仍然处于领先地位。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

在 win-rate 热图上：Gemini 1.5 Pro (0801) 对阵 GPT-4o 的胜率为 54%，对阵 Claude-3.5-Sonnet 的胜率为 59%。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

Gemini 1.5 Pro (0801) 在 Vision 排行榜上也第一！

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

网友纷纷表示，谷歌这次真是出乎所有人的预料，没有提前官宣就突然开放测试最强模型，这次压力给到了 OpenAI。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

虽然 Gemini 1.5 Pro (0801) 取得了很高的成绩，但它仍处于实验阶段。这意味着该模型在广泛使用之前可能会进行进一步的修改。

网友评测

有网友对 Gemini 1.5 Pro (0801) 的内容提取能力、代码生成能力、推理能力等进行了测试，我们来看下他的测试结果。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

来源：https://x.com/omarsar0/status/1819162249593840110

首先，Gemini 1.5 Pro (0801) 的图像信息提取功能很强，例如输入一张发票图像，将发票细节用 JSON 格式编写出来：

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

再来看下 Gemini 1.5 Pro (0801) 的 PDF 文档内容提取功能，以经典论文《Attention Is All You Need》为例，提取论文章节目录：

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

让 Gemini 1.5 Pro (0801) 生成一个帮助学习大型语言模型（LLM）知识的 Python 游戏，该模型直接生成了一整段代码：

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

值得一提的是，Gemini 1.5 Pro (0801) 还给出了详细的代码解释，包括代码中函数的作用、该 Python 游戏的玩法等等。

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

这段程序可以直接在 Google AI Studio 中运行，并且可以试玩，例如做道关于 Tokenization 定义的选择题：

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

如果觉得选择题太简单无聊，可以进一步让 Gemini 1.5 Pro (0801) 生成一个更复杂的游戏：

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

得到一个 LLM 专业知识句子填空游戏：

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

为了测试 Gemini 1.5 Pro (0801) 的推理能力，网友提问了一个「吹蜡烛」问题，但模型回答错误：

谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o

尽管有一些瑕疵，但 Gemini 1.5 Pro (0801) 的确表现出接近 GPT-4o 的视觉能力，以及接近 Claude 3.5 Sonnet 的代码生成和 PDF 理解、推理能力，值得期待。

参考链接：

https://x.com/lmsysorg/status/1819048821294547441

给TA打赏

共{{data.count}}人

人已打赏

Gemini 1.5 Pro 谷歌

阿尔特曼：OpenAI 公司为 AI 安全工作分配至少 20% 计算资源

2024-8-2 14:46:50

全员离开老东家，Stable Diffusion一作带团创业，出手即击败MJ v6、SD3，还开源

2024-8-2 15:28:00

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
TOP3

ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发
12月4日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部