20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶,复仇OpenAI

带点特斯拉、SpaceX 基因,工程能力很强。 马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了! 中午 12 点,所有人都在马斯克的直播预告中开始了等待。

带点特斯拉、SpaceX 基因,工程能力很强。

马斯克 xAI 的最新旗舰大模型 Grok3 终于现身了!

中午 12 点,所有人都在马斯克的直播预告中开始了等待。

图片

在等到 20 分钟、线上观看人数达到 100 万时,直播终于开始,马斯克也出席了。直播主题为「我们的使命是理解整个宇宙」。

图片

根据工程师们介绍,准确地说,Grok 3 是一个系列,不只是某一个模型。Grok 3 的轻量版本 Grok 3 mini 可以更快地回答问题,但会牺牲一些准确性。目前并非所有型号都已上线,但会从今天开始陆续推出。

马斯克则直接表示:Grok 3 比 Grok 2 「好 10 倍」,并且拥有扩展的训练数据集。

图片

另外,原定要发布的语音模式延期了,但也不会等太久,一周左右就行。

图片

不过现在的大模型,总会在聚光等下被人仔细检查。xAI 一直在使用位于孟菲斯的一个巨大的数据中心 —— 一个包含大约 20 万块 GPU 的数据中心来训练 Grok 3。

图片

                             这个数据中心建造的速度极快,只用了 122 天,二期还将增加到 20 万块 GPU。

Grok 3 发布后有人就第一时间指出:它消耗的算力是 DeepSeek V3 的 263 倍。不知道这个计算是否准确?

图片

看来 Grok 3 主打一个力大砖飞,我们来看下基准测试的成绩吧。

在 Math(AIME 24)、Science(GPQA)和 Coding(LCB Oct-Feb)三方面,Grok-3 大幅超过 Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet 和 GPT-4o。这些被用来对比的模型的性能与 Grok-3 mini 相近。

图片

在大模型竞技场 Chatbot Arena(LMSYS)中,早期 Grok-3 版本的得分取得了第一,达到 1402 分,超过了包括 DeepSeek-R1 在内的所有其他模型。Grok-3 也成为有史以来首个突破 1400 分的模型。

图片

下图展示了 Grok-3 和其他模型在编程、数学、创意写作、指令遵循、长查询、多轮对话等场景中的排名情况。可以看到,Grok-3 在每个维度上都排第一。

图片

比如,在编码任务中,Grok-3 超过了 o1、DeepSeek-R1、Gemini-thinking 等主要推理模型。

图片

在 Grok-3 发布不久,AI 大牛 Andrej Karpathy 晒出了自己的「早鸟」体验。他的初步感觉概括如下:

  • Grok-3 + Thinking 的水平接近 OpenAI 最强模型(每月 200 美元的 o1-pro)的最先进水平,略优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

  • Grok-3 会尝试解决黎曼猜想,这一点和 DeepSeek-R1 类似,不像其他许多模型(o1-pro、Claude、Gemini 2.0 Flash Thinking)立即放弃并简单地说这是一个重要的未解问题。 

  • DeepSearch 大约在 Perplexity DeepResearch 产品的水平,但还没有达到 OpenAI 最近发布的「Deep Research」的水平,后者感觉更加彻底和可靠。

图片

推理能力一骑绝尘

超越 o3 mini、R1 等所有对手

与此同时,Grok-3 支持推理能力,解锁了测试时计算(test-time compute)能力。这意味着竞争激烈的推理模型市场又迎来了一个强劲对手。

图片

Grok-3 的推理基准测试结果也说明了这一点,它分为了两个版本,分别是 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning

当使用更多测试时间计算时(图中延长部分),其中在数学(AIME’24)、科学(GPQA)和编码(LCB Oct-Feb)数据集上,Grok-3 的「推理 + 测试时计算」表现均超越了 OpenAI o3 mini (high) 和 o1、DeepSeek R1 和谷歌 Gemini 2 Flash Thinking 等其他一众推理模型

图片

在 AIME 2025 数学竞赛中,Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 同样霸占了前两名,大幅超越了其他推理模型。

图片

Grok-3 的用户界面如下所示,我们可以看到它的思考(Think)模式

图片

在实际使用过程中,像其他推理模型一样,Grok-3 可以展示完整的思考过程以及思考时长

图片

不仅如此,Grok-3 还支持了「Big Brain」模式,使用更多算力来解决问题,进行更深度的思考。

图片

Grok-3 能做到的超乎你的想象,比如「生成从地球发射、着陆火星然后在下一个发射窗口返回地球的 3D 动图的代码。」

图片

图片

再比如「使用 pygame 制作一款混合俄罗斯方块(Tetris)和宝石方块(Bejeweled)的游戏,代码可以很长,效果要炫酷」:

图片

图片

从演示来看,Grok-3 各项能力都在线的。

下一代智能体——DeepSearch 问世

Grok-3 还具备了强大的智能体能力,通过深度搜索(DeepSearch)来进行深入研究、头脑风暴、分析数据、生成图像、编写和调试代码。

可以说,DeepSearch 对标了此前 OpenAI 推出的深度搜索 Deep Research,后者通过联网可以在几十分钟内完成人类专家数小时才能完成得复杂研究任务。

图片

我们可以看以下几个示例,Grok-3 在 DeepSearch 模式下可以联网进行更深入的搜索,过程中也调用了思考能力。并且,搜索本身所需要的步骤也展示了出来。

图片

在下面这个示例中,让 Grok-3「对疯狂的三月比赛做出一个完整的预测」(create a full march madness bracket prediction)。

图片

最后是订阅和定价的相关信息:

X Premium+ 订阅用户将首先获得 Grok 3,其他功能需要订阅 xAI 称之为 SuperGrok 的版本。

图片

SuperGrok 的价格为每月 30 美元或每年 300 美元,可解锁更多推理和 DeepSearch 查询,并提供无限的图像生成。

图片

发布完之后,团队还根据网友提问进行了简单的问答。

其中提到,xAI 将会发布一个 Grok 驱动的语音应用(大约将在一周后发布)。并且,用户在与其进行语音对话时,模型会保留一些与用户的对话记忆。

此外,马斯克还重申了 xAI 的开源原则,即发布了最新版的模型之后便会开源前一版本的模型。他表示在发布了 Grok 3 稳定版之后就会开源 Grok 2(可能还需要等待几个月时间)。这一点看来不如开源之光 DeepSeek。

图片

                            马斯克曾发推说明 xAI 的开源原则:发布新一代模型时开源上一代模型。

最终,发布会在一个 xAI 语音模式演示视频中落下帷幕。20万张GPU!马斯克掏出「地表最强」大模型Grok-3,排行榜登顶,复仇OpenAI

之后,马斯克发推暗示自己的公司将赢得与 OpenAI 的技术竞争,因为 xAI 的创新速率有更高的一阶和二阶导数。

图片

图片

对于马斯克今日的发布,你怎么看?

相关资讯