Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

作者：故渊

2024-09-11 11:53

科技媒体 The Decoder 昨日（9 月 10 日）报道，对比平台 Artificial Analysis 相关数据表明，Reflection 70B AI 模型在基准测试中的表现，实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特・舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇到问题，所使用的权重是多个不同模型的混合体，而他们内部托管的模型则显示出更佳的结果。舒默随后向部分用户提供了独家访问内部

科技媒体 The Decoder 昨日（9 月 10 日）报道，对比平台 Artificial Analysis 相关数据表明，Reflection 70B AI 模型在基准测试中的表现，实际上不及 Meta 的 LLaMA-3.1-70B。

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特・舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇到问题，所使用的权重是多个不同模型的混合体，而他们内部托管的模型则显示出更佳的结果。

舒默随后向部分用户提供了独家访问内部模型的权限，Artificial Analysis 重做了测试，并报告结果优于公开 API，只是他们无法确认所访问的具体是哪个模型。

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

Reflection 在 Hugging Face 已上传了新的模型，不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。

AI在线查询公开资料，有用户还发现了证据，表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。

舒默对这一即将发布的版本做出了大胆声明，称其不仅将成为最佳的开源模型，还将是有史以来最优秀的语言模型。

官方回应：

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

相关阅读：

《开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集》

相关标签：

AI 模型 70B Reflection 舒默

相关资讯

开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集

开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。新模型名为 Reflection 70B，使用一种全新训练技术，让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中，一开始它犯了和大多数模型一样的错误，但主动在反思标签中纠正了自己。在官方评测中，70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro，特别是数学基准 GSM8K 上直接刷爆，得分 99.2%。这个结果也让 OpenAI 科学家、德扑

刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错

快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。HyperWrite 公司的 CEO Matt Shumer 表示，Reflection-70B 现在是「世界上最顶级的开源 AI 模型」。Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 7

两个人，三周做出开源模型新王Reflection 70B？靠谱吗？

两个人，三周做出开源模型新王Reflection 70B？靠谱吗？

技术报告下周公布。昨天，开源模型领域迎来一匹黑马 —— 一个名为 Reflection 70B 的模型横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1，成为开源模型新王。（参见《刚刚，开源大模型的新王诞生了：超越 GPT-4o，模型还能自动纠错》）模型发布后，社区反应强烈。官宣推文目前已经有了超过 270 万浏览量。另外，该项目也是目前 HuggingFace 上最热门的项目：Hugging Face：：，该模型仅由两位开发者在

资讯热榜

罗永浩 Jarvis 初创项目“J1 Assistant AI 助理”上线，利用语音与大模型互动突破非视距条件依赖！大规模区域、低成本的UWB-LiDAR标定与单次定位框架 SK 海力士宣布参展 CES 2025，将展示 122TB 企业级固态硬盘等产品类 Mac Mini 大小的个人 AI 超算：英伟达 Project Digits 发布，起价 3000 美元斯坦福AI科研神器开源，一键成文GPT-4o mini加持！科研写作彻底解放双手从DeepSeek-V3发布谈大模型的技术突破与未来机遇别再将LLM当成数据库了 3 到 5 秒即可同声传译 40 余种语言，时空壶推出 W4 Pro 实时翻译耳机

标签云