OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导

2025-02-24 11:26

近期，关于人工智能基准测试的争论在公众视野中愈演愈烈。 OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果，而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。事件的起因是 xAI 在其博客上发布了一张图表，展示了 Grok3在 AIME2025测试中的表现。

近期，关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果，而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。

事件的起因是 xAI 在其博客上发布了一张图表，展示了 Grok3在 AIME2025测试中的表现。AIME2025是最近一场数学邀请赛中的一系列挑战性数学问题的集合。虽然一些专家对 AIME 作为 AI 基准的有效性表示怀疑，但它仍然被广泛用来评估模型的数学能力。

xAI 的图表显示，Grok3的两个变体 ——Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的表现上超过了 OpenAI 当前最佳模型 o3-mini-high。然而，OpenAI 的员工很快指出，xAI 的图表没有包含 o3-mini-high 在 AIME2025上以 “cons@64” 计算的分数。

那么，什么是 cons@64呢?它是 “consensus@64” 的缩写，简单来说，它给模型提供64次尝试回答每个问题的机会，并将生成答案中最常见的答案作为最终答案。可以想象，cons@64的评分机制会显著提升模型的基准分数，因此如果在图表中省略这一数据，可能会让人误以为一个模型的表现超过了另一个模型，但实际上情况并非如此。

Grok3Reasoning Beta 和 Grok3mini Reasoning 在 AIME2025的 “@1” 分数，即模型首次尝试获得的分数，实际上低于 o3-mini-high 的分数。而 Grok3Reasoning Beta 的表现也略逊于 OpenAI 的 o1模型。尽管如此，xAI 仍将 Grok3宣传为 “世界上最聪明的 AI”。

巴布申金在社交媒体上回应称，OpenAI 过去也发布过类似的误导性基准图表，主要是对比自身模型的表现。而一位中立的专家则将各种模型的表现整理成一张更 “准确” 的图表，引发了更广泛的讨论。

此外，AI 研究者纳森・兰伯特指出，一个更为重要的指标却仍然不明朗:各模型取得最佳分数所需的计算（和财务）成本。这也表明，当前大多数 AI 基准测试所传达的信息对于模型的局限性及其优势仍显得有限。

划重点:
🔍 xAI 与 OpenAI 之间关于 Grok3基准测试结果的争论引发广泛关注。
📊 xAI 的图表未包含 OpenAI 模型的关键评分指标 “cons@64”，可能导致误导。
💰 AI 模型表现的背后，计算和财务成本仍然是一个未解之谜。

预定最强 AI：xAI Grok-3 有望下周登场，推理性能超 OpenAI o1

科技媒体 testingcatalog 今天（1 月 27 日）发布博文，报道称 xAI 官方虽然尚未公布，但 Grok-3 已短暂现身独立平台和 X 平台，开启内部测试，有望下周正式发布。

1/27/2025 9:11:46 AM

故渊

马斯克宣布 Grok 3 即将发布，称将超越 ChatGPT

在最近于迪拜举行的世界政府峰会上，亿万富翁科技企业家埃隆・马斯克通过视频连线透露，他创立的人工智能公司 xAI 即将发布其最新的聊天机器人 Grok3。马斯克表示，Grok3正在进行最后的打磨，预计将在一到两周内正式发布。他对 Grok3的表现充满信心，称其将超越目前市场上所有的同类产品。

2/14/2025 11:15:00 AM

AI在线

马斯克宣布 xAI 将推出 Grok 3，称其为 “地表最强AI模型”

在全球人工智能领域竞争愈发激烈之际，亿万富翁埃隆・马斯克（Elon Musk）所创办的人工智能公司 xAI 将于本周一发布其最新的 Grok3聊天机器人。马斯克在社交媒体平台 X 上表示，这款新型聊天机器人将于太平洋时间晚上8点进行直播演示，他形容 Grok3为 “地球上最聪明的 AI”。在本周四的迪拜世界政府峰会上，马斯克首次透露了 Grok3的发布计划。

2/17/2025 8:50:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

OpenAI 员工公开质疑 xAI：Grok 3 基准测试结果存在误导

相关资讯

预定最强 AI：xAI Grok-3 有望下周登场，推理性能超 OpenAI o1

​马斯克宣布 Grok 3 即将发布，称将超越 ChatGPT

马斯克宣布 xAI 将推出 Grok 3，称其为 “地表最强AI模型”

马斯克宣布 Grok 3 即将发布，称将超越 ChatGPT