Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

应用
9月11日
编辑

故渊

科技媒体 The Decoder 昨日（9 月 10 日）报道，对比平台 Artificial Analysis 相关数据表明，Reflection 70B AI 模型在基准测试中的表现，实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特・舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇到问题，所使用的权重是多个不同模型的混合体，而他们内部托管的模型则显示出更佳的结果。舒默随后向部分用户提供了独家访问内部

科技媒体 The Decoder 昨日（9 月 10 日）报道，对比平台 Artificial Analysis 相关数据表明，Reflection 70B AI 模型在基准测试中的表现，实际上不及 Meta 的 LLaMA-3.1-70B。

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特・舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇到问题，所使用的权重是多个不同模型的混合体，而他们内部托管的模型则显示出更佳的结果。

舒默随后向部分用户提供了独家访问内部模型的权限，Artificial Analysis 重做了测试，并报告结果优于公开 API，只是他们无法确认所访问的具体是哪个模型。

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

Reflection 在 Hugging Face 已上传了新的模型，不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。

AI在线查询公开资料，有用户还发现了证据，表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。

舒默对这一即将发布的版本做出了大胆声明，称其不仅将成为最佳的开源模型，还将是有史以来最优秀的语言模型。

官方回应：

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

相关阅读：

《开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集》

给TA打赏

共{{data.count}}人

人已打赏

70B AI Reflection 模型舒默

DeepMind 危，OpenAI 押注成立六个月 AI 药物发现公司；四川具身人形机器人科技公司成立，彭倍教授牵头丨AI情报局

2024-9-11 10:47:00

马斯克：特斯拉 2025 年末批量装备 Dojo 2 AI 训练芯片，对标英伟达 B200 系统

2024-9-11 12:49:12

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代
12月20日
2024年AI 编程现在可以做到什么程度？
12月18日
Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作
8小时前
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部