“地表最强”Grok 3震撼登场,马斯克演示却“小翻车”,网友调侃:加上擎天柱才是AGI!几个月后还将开源!

出品 | 51CTO技术栈(微信号:blog51cto)编辑 | 伊风、言征跳票多次! Grok 3终于来了! 此前,DeepSeek创造的破圈奇迹,把硅谷的大模型公司全部笼罩在阴影之下。

出品 | 51CTO技术栈(微信号:blog51cto)

编辑 | 伊风、言征

跳票多次!Grok 3终于来了!

此前,DeepSeek创造的破圈奇迹,把硅谷的大模型公司全部笼罩在阴影之下。

在Grok 3发布前,马斯克也是信心满满地放话出去:Grok 3将成为地表最强AI。

“我们有信心Grok 3会比其他任何AI都强,而且很有可能,再也不会有比Grok(系列)更强的AI了。”

上图:马斯克称Grok 3是地球最聪明的AI上图:马斯克称Grok 3是地球最聪明的AI

从性能上看,Grok比起现在各家的最强基础模型,是有一定飞跃的。

图片图片

同时,既然要做地表最强,Grok 3肯定是要做思维链推理的。

在推理方面,Grok 3越过了最近才发的o3 mini,可以说是非常能打。

上图:Grok与其他模型在数学、科学、编码上的性能对比上图:Grok与其他模型在数学、科学、编码上的性能对比

不过,号称最强的Grok 3演示却翻车得很灾难。感觉没学到DeepSeek R1的聪明劲,反而学到了“服务器繁忙,稍后重试”。

在这个演示里,团队成员让Grok 3“使用 Pygame 制作一款融合了俄罗斯方块(Tetris)和宝石迷阵(Bejeweled)元素的游戏。代码可能会很长,请将代码输出为一个文件,并使其非常出色。(原Prompt翻译)”

或许是这个题目太难,直接给Grok 3干冒烟了。多次思考未果后就退出,演示的成员多次点击重试,最后停留在思考界面“切屏”了。

(视频做了二倍速处理)(视频做了二倍速处理)

不过好在,又过去一段时间后,Grok 3还是完成了该游戏的demo。

可以看到,AI正确理解了元素融合。游戏规则不再是一行就消除,而是几个相同颜色的色块碰到就能进行消除了。而且俄罗斯方块的色彩设计得很漂亮,可以称得上是出色的应用。

“地表最强”Grok 3震撼登场,马斯克演示却“小翻车”,网友调侃:加上擎天柱才是AGI!几个月后还将开源!

马斯克此前就看好AI游戏,在直播中他透露会搞一个AI游戏社区,由用户发布与Grok的共创作品。

另一个长思维链的“秀肌肉”展示。则是与“火星殖民”计划相关的,直接让Grok 3出一段符合开普勒定律的天体模拟demo,为发射到火星的飞行器规划轨迹。

可以看到下图模拟了太阳、以及围绕太阳公转的地球和火星,并模拟了一个飞行器的路线。

“地表最强”Grok 3震撼登场,马斯克演示却“小翻车”,网友调侃:加上擎天柱才是AGI!几个月后还将开源!

从这里看出,Grok 3能思考相当复杂的问题,能挑战需要更长推理时间的问题。

美中不足的是,其演示不是直接让我们看全程的推理,所以不确定有没有“移花接木”的存在。

令一个让人略感失望的事情,这次的模型发布也是期货:Grok 3需要在X上订阅,然后会陆续开放给X用户。估计这个等待期大概是一周左右。

而Grok 3的API则要再延迟数周上线。同时,几周后的更新还会给Grok上线一个语音版本,使其变成用户的个人助手。

另一个比较劲爆的消息是,马斯克在答复观众提问的环节中宣布:几个月以后将开源上一代Grok 2!

直播最后,马斯克宣布,他也要做AI搜索了!感觉这个领域已经成为必争之地了。

下面是Grok深度搜索的界面,据马斯克介绍说,自家产品的优势是在深度探索过程中,可以设计各种次任务(左侧栏),让整个搜索更加透明、结果更加可信。

图片图片

加了强推理之后,AI不止步于搜索,也能更好地做决策判断。

在演示中,马斯克让AI搜索信息,预测星舰下一次的发射日期。当星舰给出发射时间是2月24日或者更晚时,马斯克笑着说,差不多,可能是这样吧。

另外插播一个Drama的事情,GPT 4.5也即将发布。

今天一早,奥特曼就发推炒作了一把:

“尝试 GPT-4.5 对于那些高要求的测试者来说,比我预想的更像是一次“感受到 AGI”(通用人工智能)的时刻!”

还有人诱惑奥特曼赶在Grok发布之前用GPT 4.5截胡,奥特曼回复:这不太好吧。。。

图片图片

有传言称,OpenAI的团队(包括奥特曼在内),会聚在一起观看Grok 3,然后再决定是否要推4.5出来。

那么,你认为Grok这波能炸出GPT 4.5吗?让我们详细看看“地表最强AI”的性能再下结论吧!

1.模型新霸主:性能、推理都登顶

Grok 3 的计算量比之前的初始模型高出大约十倍。于今年1 月才正式完成了预训练。

这样大的训练量使得Grok 3摘得了大模型的王冠。

不只是性能方面的全面领先。

图片图片

xAI团队还给 Grok 3 进行了多维度的评估,包括数学推理、科学常识以及计算机科学编程。

这次使用了美国数学邀请赛(AIME)2025的“新题”,可以看到Grok 3在各个领域的表现都极为出色。

图片图片

除了在基准测试中的领先,在实际应用中也有亮眼的成绩。

xAI团队对Grok 3启动了盲测,代号为“热巧克力”,在名为 Chaartrina 的平台上运行了两周。这个平台完全剥离了产品的外壳,只对这些 AI 语言模型本身进行纯粹的比较。用户提交问题后,会看到两个回答,但不知道这些回答来自哪个模型,然后进行选择。

在盲测中,Grok 3 的表现非常出色,其综合评分达到了 1400 分,没有其他模型能达到这样的分数。

2.大手笔的训练:Grok 3的实力,来自马斯克的钞能力

Grok 3 的开发得益于其 Colossus 超级计算机的强大算力,该系统仅用了 8 个月就完成构建。

Colossus 由 100,000 块 Nvidia H100 GPU 提供支持(后又扩展一倍,增至200000块),为训练提供了 2 亿 GPU 小时——比其前代模型 Grok 2 多 10 倍。

图片图片

马斯克还在直播中爆料说,他们重构了整个数据中心,并率先实现了数据中心的液冷。为了给数据中心供能、节能,xAI的团队重新设计了一个新的能源设计算法,最大程度地减少能耗。

这一计算资源的显著提升,使 Grok 3 能够更高效地处理大规模数据集,从而缩短训练时间并提高准确性。

在具体的训练技术上,Grok 3有这几个重点:

  • 合成数据集(Synthetic Datasets)——以人工生成的数据集为重点,而非从真实世界收集的数据。这些数据集可以模拟各种场景,确保数据的多样性和可控性,从而提高学习效率,并在一定程度上解决数据隐私问题。
  • 人类反馈循环(Human Feedback Loops):由人工审核并提供反馈,帮助 AI 持续优化回答的准确性和相关性。
  • 自我纠错机制(Self-Correction Mechanisms)——这是一种 AI 技术,使模型能够识别并纠正自身错误。通过评估其输出结果,并与已知的正确答案进行比较,模型可以不断优化自身回答,减少错误,提高准确性。

因此,Grok 3是能持续进化的模型,就像马斯克在直播中说“目前,每天都在更新这个模型”。

图片图片

有网友看罢惊呼:擎天柱加持Grok-3,AGI感觉真的要来了!

3.写在最后:开源、发GPT4.5,OpenAI来势汹汹

Grok 3 多次跳票,终于以第一名的头衔回归。

Grok 3的算力消耗达到了DeepSeek V3的几百倍之多。这也提醒我们,在DeepSeek创造的低成本奇迹之后,基础模型的规模和算力竞争仍在继续。

为了训练,xAI 进一步加大算力投入。据报道,马斯克正为 xAI 筹集资金,以购买更多的 Nvidia GPU。最新消息是,xAI 正在进行新一轮约 100 亿美元(730 亿元人民币) 的融资,使公司估值达到约 750 亿美元(5440 亿元人民币)。这个数值已经接近OpenAI估值的一半。

现在,马斯克的地表最强AI名副其实,Grok 3 在训练上的疯狂投入,使其在 AI 领域的竞争力再次攀升。

有趣的是,要和“CloseAI”打擂台的Grok,最初是以开源形象亮相的。然而在Grok-1.5 以后,Grok就转变为了完全的闭源模型。

直到DeepSeek广泛出圈,马斯克才旧事重提,宣布Grok 2几个月后将开源!

无独有偶,马斯克的老冤家——曾在DeepSeek爆红后表示“站在开闭源错误一端”的奥特曼,也重新提起了开源项目这一茬。

「对于我们的下一个开源项目,我们应当选择开发一个虽然体积小但仍然需要借助 GPU 运行的 o3 mini 层级模型,还是应当致力于开发一个尺寸适合手机且表现最佳的模型呢?」

此外,Altman 还发起了投票。截至发稿前,端侧模型的投票率大幅领先,相比于o3 mini 的开源,显然高赞评论的网友更希望开源GPT-4。

图片图片

Altman 曾在本月初公开承认OpenAl的闭源策略站在了历史错误的一边。不仅让人感慨AI圈的时间流速之快。

在如此高强度的竞争之下,我们不禁要问:GPT 4.5发布在即,Grok的王冠又能维持多久呢?

参考链接:

1.https://www.forbes.com/sites/larsdaniel/2025/02/16/elon-musks-scary-smart-grok-3-release--what-you-need-to-know/

2.https://www.ndtv.com/world-news/all-you-need-to-know-about-xai-chatbot-grok-3-releasing-today-7730644

相关资讯

马斯克旗下 xAI 公司宣布 B 轮融资达 60 亿美元

感谢埃隆・马斯克(Elon Musk)旗下人工智能初创公司 xAI 今日在博客文章中宣布,该公司已在 B 轮融资中筹集了 60 亿美元(IT之家备注:当前约 435.6 亿元人民币),投资方包括 Andreessen Horowitz 和红杉资本等。xAI 表示,这笔资金将用于把 xAI 的首批产品推向市场、建设先进的基础设施并加速未来技术的研发。“未来几周将会有更多消息公布,xAI 的投前估值为 180 亿美元”马斯克在 X 上的一篇帖子中回应融资公告时表示。xAI 于 2023 年 7 月成立,去年 11 月推

马斯克发布Grok 3:20万GPU激发全球竞争新动力

2025年2月,埃隆·马斯克旗下的人工智能初创企业 xAI 正式发布了其最新大模型——Grok 3。 此次发布不仅标志着 xAI 在算力和推理能力上的重大突破,也预示着全球人工智能领域竞争格局的进一步洗牌。 颠覆性的算力升级据报道,Grok 3 的训练得益于其庞大的数据中心“Colossus”,该中心拥有约20万块英伟达 H100 GPU,相较于上一代 Grok 2,Grok 3 在计算资源上实现了10倍的飞跃。

马斯克称 Grok 3 将于 2 月 18 日发布:地球上最聪明的人工智能

马斯克在社交平台 X 上表示,Grok 3 大模型将于太平洋时间周一晚上 8 点(IT之家注:北京时间 2 月 17 日 12 点)发布,届时将进行现场演示,马斯克称其为地球上最聪明的人工智能。