满血o3降智和幻觉倍增的原因可能找到了

作者：AI寒武纪

2025-04-22 09:18

OpenAI推出的满血O3“跑分”（Benchmark）貌似又被独立测试揭穿是刷榜了，而奇怪的测试基准数据可能就是o3降智和幻觉倍增的原因？你可能要问了，一个数学基准测试，与降智和幻觉有什么关系？事情要从去年12月说起。

OpenAI推出的满血O3“跑分”（Benchmark）貌似又被独立测试揭穿是刷榜了，而奇怪的测试基准数据可能就是o3降智和幻觉倍增的原因？

你可能要问了，一个数学基准测试，与降智和幻觉有什么关系？

事情要从去年12月说起。OpenAI隆重推出O3模型时，公布了一个当时看来非常惊人的成绩：在专门针对数学问题的挑战性基准测试 FrontierMath 上，O3的得分超过了 25%！

这个成绩有多厉害？要知道，当时的顶尖模型在这个榜单上也只能勉强达到约 2%。OpenAI O3的这个数字，基本上是断崖式领先

真实成绩只有10%...？

然而，Epoch AI （ FrontierMath测试基准公司）这两天发布了他们对 满血版O3 的独立测试结果。

这一测不要紧，结果却让人大跌眼镜：Epoch发现，满血O3在同一基准测试上的得分竟然只有约 10%！ 这个分数，虽然相对其他模型依然有优势，但和OpenAI最初那个25%+的“王牌”表现相比，差距可不是一点半点。Epoch直言，这个分数远低于OpenAI最初公布的最高成绩，测试成绩放在o3mini high和o4 mini当中看起来很奇怪，满血的o3竟然不如早先发布的o3 mini high

为什么会有这么大的差距？原因找到了

根据Epoch和相关方的说法，主要有几点：

测试环境与方法不同： Epoch 提到，OpenAI最初公布的那个高分，可能是在更强大的内部计算环境、或使用了更复杂的测试时间计算资源（比如多轮思考、内部推理链等）下得出的。这就像运动员平时训练时有教练指导、使用辅助器材，和正式比赛时的表现可能不一样

测试数据集不同： FrontierMath 基准测试本身也在更新。OpenAI最初可能使用了包含180道问题的旧版数据集进行测试，而Epoch测试的是包含290道问题的新版数据集。题目难度和数量变了，分数自然可能不一样

模型版本不同： 这是最关键的一点！据ARC Prize基金会等机构透露（他们也测试过O3的预发布版本），OpenAI 公开发布给用户使用的 O3 模型，特别是针对聊天和产品应用进行过优化的版本，与OpenAI最初用于跑分的那个性能更强的预发布版本是“不同的模型”。简单来说，公开版的计算层级（可以理解为模型的“大小”或“算力”）更小。通常来说，计算层级更大的模型能获得更好的跑分成绩

定位不同： OpenAI技术人员Wenda Zhou也在一次直播中解释说，公开发布的O3是针对成本效率和通用性进行了优化，以便更好地服务于实际应用。因此，它的表现可能与纯粹追求最高跑分、不计成本的演示版本存在“基准测试差异”。