AI在线 AI在线

xAI 新模型 Grok 3 逻辑推理能力获 OpenAI 创始人点赞

作者:AI在线
2025-02-19 10:19
埃隆・马斯克的人工智能公司 xAI 于本周一发布了其最新的语言模型 Grok3,标志着该公司在人工智能领域的重要进展。 据马斯克介绍,新模型所需的计算能力是其前身的十倍,使用了位于孟菲斯的数据中心,配备了约20万块 GPU。 Grok3系列模型推出了多种变体,其中包括一个精简版,旨在提高速度但牺牲部分准确性。

埃隆・马斯克的人工智能公司 xAI 于本周一发布了其最新的语言模型 Grok3,标志着该公司在人工智能领域的重要进展。据马斯克介绍,新模型所需的计算能力是其前身的十倍,使用了位于孟菲斯的数据中心,配备了约20万块 GPU。

QQ_1739931524842.png

Grok3系列模型推出了多种变体,其中包括一个精简版,旨在提高速度但牺牲部分准确性。此外,新的 “推理” 模型专门设计用于解决数学和科学问题。用户可以通过 Grok 界面中的 “思考” 和 “大脑” 设置来调整这些功能。xAI 表示,这一版本尚未最终定型,模型仍在持续训练中,团队计划在未来几周内进行改进。

根据 AI 基准测试平台 lmarena.ai 的数据,Grok3在聊天机器人领域的得分超过了1400,成为领先者,涵盖编程等所有类别,超越了 OpenAI、Anthropic 和谷歌的模型。然而,实际性能可能与基准结果有所不同。例如,尽管 Claude3.5Sonnet 在编码基准测试中的得分低于某些模型,但许多用户仍认为它是编程任务的更优选择。

OpenAI 创始人安德烈・卡尔帕西(Andrej Karpathy)获得了 Grok3的早期访问权,他对该模型的逻辑推理能力给予了高度评价。“思考” 功能能够成功处理复杂任务,比如计算 GPT-2的训练 flops 或为棋盘游戏创建六边形网格,这些能力在之前仅限于 OpenAI 的高端模型 o1-pro。此外,该功能还提高了基本数学操作的准确性,比如字母计数和比较小数。

在新搜索功能方面,卡尔帕西指出,DeepSearch 的质量与 Perplexity 的研究工具相当,可以提供关于即将发布的苹果产品和 Palantir 股票动态等主题的相关答案。然而,他也发现了一些明显的问题:模型有时会生成虚假的网址,做出不支持的声明,并且仅在特定提示下引用 X 的帖子。

它似乎还对自己的存在缺乏意识,遗漏了 xAI 在主要 AI 实验室中的位置。这些局限性使 DeepSearch 尚未达到 OpenAI “深度研究” 的质量水平,并且在幽默和伦理问题上表现不佳。

相关标签:

相关资讯

Meta 新模型 Llama-4-Maverick 排名骤降,引发刷榜质疑

近日,Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名,这一剧烈波动引发了开发者们的广泛质疑,认为 Meta 可能通过提交特供版本以刷榜。 事情的起因要追溯到4月6日,Meta 发布了其最新的大模型 Llama4,包括 Scout、Maverick 和 Behemoth 三个版本。 其中,Llama-4-Maverick 在初期的评估中表现亮眼,位列 LMArena 排行榜的第二名,仅次于 Gemini2.5Pro。
4/14/2025 6:01:07 PM
AI在线

Perplexity 竞技场夺冠,Sonar挑战谷歌Gemini的搜索霸主地位

在最新的 LM Arena Search Arena 评估中,Perplexity 公司的 Sonar-Reasoning-Pro-High 模型表现优异,与谷歌的 Gem-2.5-Pro-Grounding 模型并列第一,直接对决的胜率达到53%。 这一消息无疑给搜索引擎领域带来了新的震动,显示了 Perplexity 在 AI 搜索技术上的强大实力。 Sonar 系列模型在此次评估中包揽了前四名,这不仅彰显了其深度搜索能力,也显示了其在严谨引证方面的出色表现。
4/16/2025 4:01:05 PM
AI在线

LMArena正式成立公司,致力于提供中立的AI评估平台

近日,备受关注的人工智能评估平台 LMArena 宣布将成立一家新公司,名为 Arena Intelligence Inc.,以便为未来的项目改进提供更强大的资源。 LMArena 的创始团队在博客中表示,新公司的成立将帮助他们在保持中立的同时,增强大型语言模型(LLM)测试平台的功能,致力于为 AI 用户提供一个不受任何企业影响的公平评估环境。 LMArena 于2023年由加州大学伯克利分校的研究人员创建,迅速发展成为业内最受认可的 AI 基准测试平台之一。
4/18/2025 11:01:57 AM
AI在线
  • 1