“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

小型创业团队打造的“最强开源模型”，发布才一周就被质疑造假 ——不仅官方宣称的成绩在第三方测试中大打折扣，模型还被质疑套壳 Claude。面对浩大的声浪，厂商 CEO 终于发文道歉，但并未承认造假，表示在调查有关原因。被指控造假的，就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。一开始的质疑主要关于测试成绩，官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳 Claude 这一更重磅的指控，让 Reflection 更加百口莫辩。表现不如宣传，还被质疑套壳Reflection

小型创业团队打造的“最强开源模型”，发布才一周就被质疑造假 ——

不仅官方宣称的成绩在第三方测试中大打折扣，模型还被质疑套壳 Claude。

面对浩大的声浪，厂商 CEO 终于发文道歉，但并未承认造假，表示在调查有关原因。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

被指控造假的，就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。

一开始的质疑主要关于测试成绩，官方找了上传版本有误等借口试图“蒙混过关”。

但后来又出现了套壳 Claude 这一更重磅的指控，让 Reflection 更加百口莫辩。

表现不如宣传，还被质疑套壳

Reflection 是一个 70B 的开源模型，按照厂商的说法，它一下子把 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro 这一系列先进模型全都超过了。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

但 Reflection 刚发布两天，第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。

在 MMLU、GPQA 和 MATH 上，Reflection 的成绩和 Llama3 70B 一样，连 Llama 3.1-70B 都比不过，更不用说 405B 了。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

对此官方辩称是，Hugging Face 上发布的版本有误，将会重新上传，但之后就没了下文。

不过官方同时也表示，会给测评人员提供模型 API，然后 Reflection 的成绩果真有了增长，但在 GPQA 上仍然不敌 Claude 3.5 Sonnet。

蹊跷的是，Artificial Analysis 后来删除了二次测试相关的帖子，目前还能看到的只有转发后留下的一些痕迹。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

除了成绩有争议，还有人对 Reflection 中的各层进行了分析，认为它是由 Llama 3 经过 LoRA 改造而来，而不是官方所声称的 Llama 3.1。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

在 Hugging Face 上，Reflection 的 JSON 文件中也显示是 Llama 3 而非 3.1。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

官方的解释仍然是说 HF 上的版本有问题。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

还有另一个质疑的点是，Reflection 实际上是套壳 Claude，相关证据体现在多个方面。

一是在某些问题上，Reflection 与 Claude 3.5-Soonet 的输出完全一致。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

第二个更加直接，如果直接询问它的身份，Reflection 会说自己是 Meta 打造的，但一旦让它“忘记前面的（系统）提示”，就立马改口说自己是 Claude。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

第三个发现则更加诡异 ——Reflection 遇到“Claude”一词会将其自动过滤。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

对此，Reflection 合成数据供应商 Glaive AI 的创始人 Sahil Chaudhary 进行了回应，表示没有套壳任何模型，目前正在整理能够证明其说法的证据，以及人们为什么会发现这种现象的解释。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

而关于一开始的测试成绩问题，Chaudhary 则表示正在调查原因，弄清这两件事后会发布报告进行说明。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

Reflection 这边最新的动态是 CEO 发布了一则道歉声明，不过没有承认造假，依然是说正在进行调查。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

不过对于这一套解释，有很多人都不买账。

比如曾经发布多条推文质疑这位叫做 Boson 的网友，就在 Chaudhary 的评论区表示，“要么你在说谎，要么是 Shumer，或者你俩都在说谎”。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

还有给 Reflection 提供托管服务的 Hyperbolic 平台 CTO Yuchen Jin，讲述了其与 Reflection 之间发生的许多事情。

托管平台 CTO 讲述幕后细节

在 Reflection 发布之前的 9 月 3 号，Shumer 就找到了 Hyperbolic，介绍了 Reflection 的情况并希望 Hyperbolic 能帮忙托管。

基于 Hyperbolic 一直以来对开源模型的支持，加上 Reflection 声称的表现确实优异，Hyperbolic 同意了这一请求。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

9 月 5 号，Reflection 正式上线，Hyperbolic 从 Hugging Face 下载并测试了该模型，但并没有看到标签，于是 Jin 给 Shumer 发了私信。

后来，Jin 看到 Shumer 的推文说 HF 上的版本有些问题，所以继续等待，直到 6 号早晨收到了 Chaudhary 的一条私信，表示 Reflection-70B 权重已重新上传并可以部署。

看到和标签按预期出现后，Hyperbolic 上线了 Reflection。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

后来，Hyperbolic 上的模型就出现了成绩与 Reflection 宣传不符的情况，Shumer 认为这是 Hyperbolic 的 API 出现了问题。

不过，Reflection 这边再次上传了新版本，Hyperbolic 也重新托管，但 Jin 与 Artificial Analysis 沟通后发现，新版本的表现依旧差强人意。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

Shumer 继续表示，Reflection 还有个原始权重，也就是内部测试使用的版本，如果需要可以提供给 Hyperbolic。

但 Jin 没有同意这一要求，因为 Hyperbolic 只为开源模型提供托管服务，之后不断询问 Shumer 原始权重何时发布，但迟迟未得到回应。

最终，Jin 认为应该下线 Reflection 的 API 并收回已分配的 GPU 资源。

这件事情让我的感情受到了伤害，我们在这件事上花费了很多时间和精力。

但经过反思后，我并不后悔当初的托管决定，这帮助社区更快地发现问题。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

大模型怎么测试才靠谱？

暂且抛开 Llama 版本和套壳的问题，单说关于测试成绩的问题，反映了当前的 Benchmark 已经体现出了一些不足之处。

英伟达高级科学家 Jim Fan 就表示，模型在现有的一些测试集上造假简直不要太容易。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

Jim 还特别点名了 MMLU 和 HumanEval，表示这两项标准“已被严重破坏”。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

另外，Reflection 在 GSM8K 上取得了 99.2 分的成绩，就算这个分数没有水分，也说明测试基准到了该换的时候了。

Jim 表示，现在自己只相信 Scale AI 等独立第三方测评，或者 lmsys 这样由用户投票的榜单。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

但评论区有人说，lmsys 实际上也可以被操纵，所以（可信的）第三方评估可能才是目前最好的测评方式。

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

参考链接：

[1]https://venturebeat.com/ai/reflection-70b-model-maker-breaks-silence-amid-fraud-accusations/

[2]https://x.com/ArtificialAnlys/status/1832505338991395131

[3]https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/

[4]https://www.reddit.com/r/LocalLLaMA/comments/1fc98fu/confirmed_reflection_70bs_official_api_is_sonnet/

[5]https://x.com/shinboson/status/1832933747529834747

[6]https://x.com/Yuchenj_UW/status/1833627813552992722

[7]https://twitter.com/DrJimFan/status/1833160432833716715

本文来自微信公众号：量子位（ID：QbitAI），作者：克雷西，原标题：《“最强开源模型”被打假，CEO 下场致歉，英伟达科学家：现有测试基准已经不靠谱了》

{{userData.name}}已认证

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱

表现不如宣传，还被质疑套壳

托管平台 CTO 讲述幕后细节

大模型怎么测试才靠谱？

北京发出首张“具身智能机器人食品经营许可证”：“AI 大厨”即将登场

训大模型为啥这么贵？专家：一半以上算力被浪费了

推理模型 DeepSeek-R1-Lite 预览版上线，号称媲美 OpenAI o1-preview

AI自动操作VS Code，自然语言搞定各种配置，来自阿里通义智能计算实验室 | 开源

九大成像模式一键解析，生物医学图像AI再迎突破！微软、UW等BiomedParse登Nature子刊

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

微软在东京开设其日本首个研发中心，专注于将机器人技术与 AI 相结合

AI 助力脑瘤手术：10 秒内精准识别残留肿瘤

闲鱼注册用户突破 6 亿，AI 技术已应用于闲置交易全链路

零一万物与华为启动合作，将基于昇腾硬件底座开发原生大模型应用