OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

2025-02-23 09:24

本周，OpenAI 的一名员工公开指责埃隆・马斯克旗下的 xAI 公司，称其发布的最新 AI 模型 Grok 3 的基准测试结果具有误导性。对此，xAI 的联合创始人伊戈尔・巴布什金（Igor Babushkin）则坚称公司并无不当。

xAI 在其博客上发布了一张图表，展示了 Grok 3 在 AIME 2025（一项近期邀请制数学考试中的高难度数学题集）上的表现。尽管一些专家质疑 AIME 作为 AI 基准的有效性，但 AIME 2025 及其早期版本仍被广泛用于评估模型的数学能力。

AI在线注意到，xAI 的图表显示，Grok 3 的两个版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表现超过了 OpenAI 当前最强的可用模型 o3-mini-high。然而，OpenAI 的员工很快在 X 平台上指出，xAI 的图表并未包含 o3-mini-high 在“cons@64”条件下的 AIME 2025 得分。

“cons@64”是指“consensus@64”，即允许模型在基准测试中对每个问题尝试 64 次，并将出现频率最高的答案作为最终答案。可想而知，这种方式往往会显著提升模型的基准测试分数，如果图表中省略这一数据，就可能让人误以为某个模型的表现优于另一模型，而实际情况未必如此。

在 AIME 2025 的“@1”条件下（即模型首次尝试的得分），Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表现也略低于 OpenAI 的 o1 模型在“中等计算”设置下的得分。然而，xAI 仍在宣传 Grok 3 为“世界上最聪明的 AI”。

巴布什金在 X 平台上辩称，OpenAI 过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

在这场争议中，一位中立的第三方重新绘制了一张更为“准确”的图表：

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

但正如 AI 研究员内森・兰伯特（Nathan Lambert）在一篇文章中指出的，或许最重要的指标仍然未知：每个模型达到最佳分数所需的计算（和金钱）成本。这恰恰表明，大多数 AI 基准测试在传达模型的局限性和优势方面仍然存在很大的不足。

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克在社交平台 X 上表示，Grok 3 大模型将于太平洋时间周一晚上 8 点（IT之家注：北京时间 2 月 17 日 12 点）发布，届时将进行现场演示，马斯克称其为地球上最聪明的人工智能。

2/16/2025 11:23:49 AM

远洋

马斯克宣布 Grok 3 语音模式早期测试版已上线

马斯克宣布Grok 3语音模式早期测试版已上线，用户可通过自然语言与AI对话，提供两种声音和自定义功能。#Grok3 #AI语音模式#

2/23/2025 12:24:04 PM

远洋

奥特曼回应马斯克收购提议：同情他缺乏安全感

在近日于巴黎举行的人工智能行动峰会上，OpenAI 首席执行官萨姆・奥特曼对埃隆・马斯克的收购提议作出了强烈回应。据报道，马斯克所领导的财团计划以974亿美元的价格收购 OpenAI 的控股权，奥特曼对此表示反对，并指出这是马斯克一系列策略中的最新举动。他认为，马斯克的意图或许是想让 OpenAI 的发展速度减缓。

2/12/2025 9:52:00 AM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练

顶部

OpenAI 员工公开指责 xAI：Grok 3 基准测试结果具有误导性

相关资讯

马斯克称 Grok 3 将于 2 月 18 日发布：地球上最聪明的人工智能

马斯克宣布 Grok 3 语音模式早期测试版已上线

奥特曼回应马斯克收购提议：同情他缺乏安全感