推理最强也最快,谷歌发布Gemini 2.0 Flash Thinking,全面超越o1-preview

不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。 OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。 从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking,谷歌端上来的菜真是一道比一道香。

不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。

OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking,谷歌端上来的菜真是一道比一道香。

图片

从名字也能看出来,Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其经过专门训练,可使用思维(thoughts)来增强其推理能力。

据 Jeff Dean 介绍,Gemini 2.0 Flash Thinking 还会明确展示其思考过程。下面是 Jeff Dean 在 X 上发布的一个 demo—— 其中,模型解答了一个物理问题并解释了自己的推理过程,整个过程耗时 1 分多钟。推理最强也最快,谷歌发布Gemini 2.0 Flash Thinking,全面超越o1-preview

虽然 Flash 版本还不是 Gemini 2.0 的满血版,但这个 Thinking 模型就已经登顶了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不仅是总分第一,在编程、数学、创意写作等各项评测任务上都是第一名(有些是并列第一)。

图片

Targum 创始人和 CEO Alex Volkov 则通过 10 个难题对 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 进行了对比测试,结果发现这两个推理模型的表现相当,而后者的速度要快得多。

图片

而根据另一位研究者 Subhash Peshwa 的测算,Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。

图片

Gemini 2.0 Flash Thinking 发布后,网友们都纷纷点赞,并乐见其与 ChatGPT 和 Claude 等聊天机器人的竞争。

图片

图片

图片

目前,Gemini 2.0 Flash Thinking 实验版完全可以免费使用,感兴趣的读者可访问:https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219

图片

表现优异,但也会犯错

首先,Gemini 2.0 Flash Thinking 在数学推理方面速度快、质量高。例如,Gemini 2.0 Flash Thinking 在 14 秒内破解了 goto 数学题,比任何其他可以解决该问题的模型快 5 倍:

图片

在一道求解数学期望的问题上,OpenAI 的 o1 求解错误,而且推理速度很慢,而 Gemini 2.0 Flash Thinking 仅用 2/7 的时间就正确解答:

图片

解一道简单的数学推理题:挑选数字小球,使数字总和为 30:推理最强也最快,谷歌发布Gemini 2.0 Flash Thinking,全面超越o1-preview

                            来源:https://x.com/OfficialLoganK/status/1869789822384255300

Gemini 2.0 Flash Thinking 迅速解答,而且给出了详细的推理过程。

DeepMind 首席科学家 Jack Rae 在纸上手写了一道数论问题,也是他的工作面试问题,Gemini 2.0 Flash Thinking 轻松解决了:推理最强也最快,谷歌发布Gemini 2.0 Flash Thinking,全面超越o1-preview

                              来源:https://x.com/drjwrae/status/1869806621024772096

可见,Gemini 2.0 Flash Thinking 可以准确识别视觉内容,并进行数学推理。

有时也会翻车,知道「strawberry」有 3 个「r」,但「strawberrry」就数不清了:

图片

「9.9 和 9.11 谁大」这事还是没能解决:

图片

顺带一提,关于现在的 LLM 难以数出 strawberry 中 r 数量的深层原因,可以参阅AI在线之前的报道《他们掰开神经元,终于让大模型 9.8 大于 9.11 了:神秘创业公司,开源 AI「洗脑」工具》。

Gemini 2.0 Flash Thinking 还有能力理解和解答非常困难的问题,比如斯坦福 NLP 的统计学家 Zitong Yang 就分享了自己的一个用来测试推理模型的问题:三赌徒问题。然后他惊喜地发现,Gemini 2.0 Flash Thinking 成为了首个正确解答该问题的模型,而他之前测试的 o1-preview、o1、r1、QwQ 模型都未能过关。

图片

三赌徒问题:假设三个赌徒最初有 (a, b, c) 美元。每次试验都是随机选择两个玩家,让他们公平地掷一枚硬币;根据输赢,他们会正常地转手 1 美元。玩家一旦破产,就会退出。令 (S_1) 表示一名玩家破产所需的游戏局数。令 (S_2) 表示两名玩家破产所需的游戏局数。求 S_1 和 S_2 的期望。

下面是 Gemini 2.0 Flash Thinking 的部分思考过程和最终答案。

图片

图片

AI在线也上手进行了一番测试。考虑到网络上已有大量使用英语的测试,这里我们就仅使用汉语了。

首先来看看 Gemini 2.0 Flash Thinking 的编程能力:写一个井字棋小游戏,其中用两个不同的 emoji 标记双方的棋子。

图片

可以看到,该模型用了 10.8s 思考,然后用 21.0s 完成了任务。测试一下,该模型生成的代码确实能正确实现功能。

图片

这里再测试一道来自《孙子算经》的古代数学题:今有物不知其数,三三数之剩二;五五数之剩三;七七数之剩二。问物几何?

图片

这一次,Gemini 2.0 Flash Thinking 思考了 11.1s,解答过程则用了 16.3s。有意思的是,该模型不仅正确解答了问题,也根据自己的知识库对相关信息进行了扩展说明。

Gemini 2.0 Flash Thinking 也支持输入图片和音频等模态的数据,可以帮助我们理解梗图或者解答手写的数学问题。

图片

最后,我们来试试 Gemini 2.0 Flash Thinking 能否解读中文的验证码。

图片

很显然,它彻底失败了,一个字都没能正确识别出来,所以暂时还不用担心被 AI 盗号了。

Gemini 2.0 Flash Thinking,着实有趣,就是名字有点长。

相关资讯

谷歌 Gemini 家族添 Flash 新成员:平衡规模和能力、支持多模态,单次可分析 3 万行代码

谷歌公司今天扩充 Gemini 家族成员,推出了全新的 Gemini 1.5 Flash 模型,重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis)在一篇博客文章中写道:Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说,谷歌之所以创建 Gemini 1.5 Flash,是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注:Gemini

大模型厂商密集发力,谷歌也开“卷”了:Gemini 聊天机器人换上新模型,还能一键核查输出内容

Meta、OpenAI 等大模型厂商密集发力之际,谷歌也宣布了一项重磅更新 ——即日起,Gemini 聊天机器人将改由 Gemini 1.5 Flash 驱动。与之前的版本相比,窗口长度提高到了 4 倍,响应速度也更快了。按照谷歌的介绍,新版聊天机器人背后的 1.5 Flash 模型,主打的就是轻量化和速度提升。当然模型回复的质量也有提升,上下文窗口也从原先(基于 1.0 Pro)的 8k 提升到了 32k。此外新版聊天机器人还增加了“事实核查”功能,可以一键检测生成的内容是否属实,减轻模型幻觉带来的不良影响。有网

谷歌升级 Gemini 1.5 Flash 模型,AI 聊天响应速度最高提 50%

谷歌公司于今年推出 Gemini 1.5 Flash AI 模型,官方承诺提供更快的响应速度、能应对更复杂的用户查询。在最新版本更新中,谷歌宣布采用 Gemini 1.5 Flash 的 Gemini 大幅提升响应速度,增幅最高可以达到 50%。AI在线附上谷歌官方支持文档内容如下:Gemini 给出回答的速度大幅提升更新内容:过去几周以来,我们在改善延迟方面取得了重大进步,采用 1.5 Flash 模型的 Gemini 给出回答的速度现在大幅提升,升幅最高达 50%。更新原因:通过让 Gemini 快速给出回答,