「世界开源新王」Reflection 70B 跌落神坛?重测跑分暴跌实锤造假
「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的 Sonnet 3.5?发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎,已经光速「滑跪」,po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B,才发布一个月就跌落神坛了?9 月 5 日,Hyperwrite AI 联创兼 CEO Ma…- 6
- 0
“最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已不靠谱
小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假 ——不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳 Claude。面对浩大的声浪,厂商 CEO 终于发文道歉,但并未承认造假,表示在调查有关原因。被指控造假的,就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。一开始的质疑主要关于测试成绩,官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳…- 13
- 0
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
科技媒体 The Decoder 昨日(9 月 10 日)报道,对比平台 Artificial Analysis 相关数据表明,Reflection 70B AI 模型在基准测试中的表现,实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇…- 11
- 0
开源大模型新王 Reflection 70B 超越 GPT-4o:新技术可纠正自己幻觉,数学 99.2 分刷爆测试集
开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。新模型名为 Reflection 70B,使用一种全新训练技术,让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中,一开始它犯了和大多数模型一样的错误,但主动在 反思 标签中纠正了自己。在官方评测中,70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemin…- 35
- 0
Reflection
❯
个人中心
今日签到
搜索
扫码打开当前页
返回顶部
幸运之星正在降临...
点击领取今天的签到奖励!
恭喜!您今天获得了{{mission.data.mission.credit}}积分
我的优惠劵
- ¥优惠劵使用时效:无法使用使用时效:
之前
使用时效:永久有效优惠劵ID:×
没有优惠劵可用!