马斯克“地表最强”Grok 3炸场,竞技场首超1400分

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)! 一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。 而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。

刚刚,马斯克xAI的Grok 3终于亮相(超300万人次围观)!

一出道即巅峰,竞技场(lmarena.ai)官方给出了这样的评价:

Grok 3是首个突破1400分的模型,并且在所有类别中排名第一。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

而且,Grok 3还是首个在10万张(后扩展到20万)H100集群上训练出的模型。

在发布预告消息的时候,马斯克就对Grok 3大力夸赞,称其是“地球上最聪明的AI”

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

发布之前,大神Karpathy获得了抢先体验资格,玩了两个小时之后发长文详述了自己的感受。

Karpathy认为,Grok-3的思考能力达到了SOTA,推理水平和o1-pro差不多,略好于DeepSeek R1和Gemini的推理模型。

如果考虑到Grok 3是一年前从头开始训练的,取得这样的成绩属实不可思议。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

并且对于数字母、小数比大小这些经典大模型“难题”,Grok 3在开启推理之后也都正确解决。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

不过也人质疑Grok的地位,有一位仿冒老黄的网友说,Grok 3即便真的是最强,也最多只能强一周。

加上OpenAI也剧透了下一代GPT计划,马斯克和奥特曼的另一场推特大战就要爆发了。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

奥特曼昨晚也发推称,GPT-4.5的测试让他感受到了比预期更强烈的“feel the AGI”的感觉。

还有网友到评论区起哄,让他在早上截胡马斯克,直播发布GPT-4.5。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

言归正传,我们来看直播都讲了啥。

20万张H100,训出最强模型

这次直播一共有四人参与,除了马斯克之外,较为醒目的就是坐在C位的两位华人,他们都是xAI创始成员。

二人从左至右分别是:

  • Jimmy Ba,2023年斯隆奖得主,Hinton手下的助理教授,本科到博士都在多伦多大学。
  • 吴宇怀Yuhuai(Tony) Wu,斯坦福大学博士后,博士毕业于多伦多大学。

而最左边的则是Igor Babuschkin,是xAI的一位工程师。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

四人先是介绍了Grok 3的训练历程。

去年马斯克剧透,Grok 3在10万张H100上进行训练,是首个达到如此训练集群规模的模型。

当时就有网友称这简直是神经网络的超级工厂。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

今天的发布会上又透露,到训练进行到第92天时,集群规模扩展到了20万卡

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

如此强大算力,xAI也是紧跟潮流在Grok 3中推出了思维链推理能力

在此前迪拜的一场峰会上,马斯克高调宣称:

Grok 3具有强大推理能力,聪明程度超越目前所有已知模型。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

这一波Grok 3有满血和mini两个版本,在数学、科学、代码等数据集上表现均超过了GPT-4o、DeepSeek-V3等非推理模型。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

并且Grok 3早期还化名“巧克力”打榜LMSYS,一举夺魁并成为唯一一个得分超1400的模型

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

在Grok 3和mini的基础之上,xAI团队还打造了两款推理模型

其中基于mini的推理模型(Grok 3 mini Reasoning)已经比较成熟,而基于满血版的推理模型(Grok 3 Reasoning Beta)还处在Beta阶段。

介绍成绩之前,四人用马斯克的账号先让Grok跑了两个案例,分别和物理学以及游戏相关。

生成一段代码,为从地球降落在火星,然后在下一个发射窗口返回地球的发射绘制三维动画图表。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

生成的过程中,有人开玩笑说什么时候能把Grok装到SpaceX的火箭上,马斯克也回应说可能再过2年。

马斯克还表示,如果一切顺利,SpaceX将在大约2025年11月左右,也就是下一个地球-火星转移窗口期,用星舰把擎天柱机器人送上火星。

说回Grok,在考虑了开普勒定律并将其转化为代码之后,最终生成了可以绘制出这样的动画的代码:

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

第二个问题开启了Big Brain模式,会让模型用更多的计算资源去做更多的思考。

题目要求则是使用pygame组件,设计一款游戏,把俄罗斯方块和宝石迷阵缝合到一起。

同时还提示代码可能会很长,需要保存到一个文件当中,并且要“insanely great”。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

而Grok 3也不负众望,把这两款游戏成功结合,并介绍了合体版游戏的特点:

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

运行起来是酱婶儿的,既有俄罗斯方块的消除机制,又根据宝石迷阵的特点调整成了三个方块消除一次。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

再来看跑分结果,在数学、科学和代码任务中,两者都取得了不俗的成绩。

并且如果让他们“多思考”(柱状图上方浅色部分)之后,表现超越了DeepSeek-R1和高配版o3-mini

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

不过,目前很多模型都在Benchmark上出现了“过拟合”的现象,那么Grok 3的实际表现究竟咋样呢?

研发团队让它们挑战了今年AIME 2025竞赛的试题,结果Grok-3 Reasoning Beta和mini Reasoning分别取得了93和90分的成绩,力压其他推理模型。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

除了Grok 3预训练模型和两个推理模型之外,这次xAI团队还发布了一个AI Agent,叫做DeepSearch

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

这个功能可以看做是xAI对OpenAI、谷歌等陆续推出的Deep Research功能的对标。

简而言之,DeepSearch通过扫描互联网和X来分析信息,并提供摘要来回答问题。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

至于权限方面,X的Premium+用户今日起可以体验Grok 3。

独立APP上,则需要订阅SuperGrok——30美元/月300美元/年

发布过程一波三折,语音模式推迟上线

而纵观Grok 3问世的整个过程,也可谓是一波三折。

去年8月,马斯克接受知名访谈博主Lex Fridman采访时曾说过,Grok 3在有望当年年底发布。

结果一直到今年1月19号,第一个测试实例才终于被公布,实际发布更是拖到了现在。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

并且就在发布前的周末,xAI团队还在对Grok 3进行紧急打磨。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

xAI员工也现身说法,周日晚11:30(北京时间周一下午3:30,也就是发布前不到24小时)发帖表示还在熬夜赶工。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

甚至到了发布会前一个半小时,马斯克突然宣布原本打算发布的语音功能需要延期。

马斯克发推称,语音模式还有些不稳定,需要推迟到一周之后。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

现场QA环节也有网友提问具体发布时间,团队的回答是“很快会上线一个早期版本,然后逐步迭代”。

不过,同属马斯克旗下的Neuralink高管Shivon Zilis曾体验过1个小时的Ara,并在北京时间今早发布了她的体验感受。

Shivon表示,那是她一生中最意外、最有意义的时刻之一。

她和Ara聊了生物学、量子纠缠等话题,还让Ara出题检验她的学习效果。

结果Shivon只答对了一半的问题,但Ava非常耐心地向她解释了其余的问题,而且并不会嫌问题问得过于愚蠢。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

当时还有人在评论区追问,Ara是语音版本吗,Shivon给出了肯定的回答。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

寻求100亿美元新融资,还要进军游戏

事实上,老马选择此时发布Grok 3难免有一点微妙。

就在上周五,彭博社爆料xAI正寻求一轮约100亿美元的新融资,公司估值达到约750亿美元(5454.6亿元人民币)。

现有投资者包括红杉资本、Andreessen Horowitz以及Valor Equity Partners,正在洽谈参与此次融资。

由于还没有最终敲定,新模型的发布大概率将对本轮融资产生一定影响。

一旦上述消息得到确认,显然xAI的融资速度实在有点惊人了。

去年12月底,这家公司才刚完成了一轮60亿美元的C轮融资,当时公司估值510亿美元。

短短不到两个月,公司估值直接涨了约47%。而且再往前推,从B轮到C轮的融资,更是实现了半年内估值翻倍。

可以说,仅成立不到两年的xAI,已经成长为OpenAI的强大对手。

而有了充足资金的xAI,除了继续发展模型,也官宣了其他方向——

押注游戏领域,成立AI游戏工作室。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

这一消息最早在去年11月老马就透露了,当时他吐槽“过多游戏工作室掌握在大型企业手中”。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

这下,老马的商业版图又将扩展了。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

One More Thing

就在Grok 3发布前几日,还有一件非常抓马的事引起热议。

一位xAI工程师(现在是前员工了)公开发帖将Grok 3与其他几个竞品的代码能力进行了对比。

虽然清晰标注了这是个人观点,但显然他将自家模型Grok 3排在第4位(前三名都是OpenAI模型)的做法还是惹来了争议。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

随后该员工爆料称,公司要求他要么删帖,要么被解雇,理由是这条帖子暴露了Grok 3的存在。

一听这话,小哥觉得有点扯,毕竟Grok 3大家早就知道了,而且还甩出了马斯克之前的发言截图。

面对着xAI的这波小心眼,小哥也直接不惯着,带着一篇洋洋洒洒的小作文,决定辞职了。

我会保持我的言辞和尊严,找另一份工作,或者自己创业。回头见。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

对于这件事,老马后来也回应了“这很奇怪”,但后续没有更多动作传出。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

更戏剧的是,由于对工资支付产生争议,小哥后来再次公开发帖艾特老马:

请做正确的事。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

不过,虽然已经“分手”,但参与了Grok 3语音模式的小哥还是不计前嫌,多次帮忙宣传Grok 3。

并且今天老马宣布延期的语音模式,也是这位小哥所在团队的工作成果,即便已经离职,小哥依然对这项工作感到自豪。

马斯克“地表最强”Grok 3炸场,竞技场首超1400分

话说回来,你觉得这次的Grok 3如何?等到下一代GPT发布之后,老马还能继续保持领先吗?

相关资讯

追平满血版o1的国产多模态模型终于来了!训练细节全部公开

春节前最后一周,能媲美 Open AI 满血版 o1(Full Version,而非 preview)的模型终于出现了! 刚刚,月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。 新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1,而且是 OpenAI 之外首个多模态 o1。

Anthropic CEO惊人预警:27年AI超越人类!Claude今年更新全剧透

失踪人口终于回归了! 在互联网消失一段时间后,Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访,连曝AI大瓜。 他坚定地认为,「2027年之前,AI完全可以超越人类智能!

中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了

今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!