Reflection

「世界开源新王」Reflection 70B 跌落神坛？重测跑分暴跌实锤造假
「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的 Sonnet 3.5？发布者 Matt Shumer 和 Sahil Chaudhary 经过一番挣扎，已经光速「滑跪」，po 出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？9 月 5 日，Hyperwrite AI 联创兼 CEO Ma…
应用
- 6
- 0
清源10月7日
“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已不靠谱
小型创业团队打造的“最强开源模型”，发布才一周就被质疑造假 ——不仅官方宣称的成绩在第三方测试中大打折扣，模型还被质疑套壳 Claude。面对浩大的声浪，厂商 CEO 终于发文道歉，但并未承认造假，表示在调查有关原因。被指控造假的，就是宣称“干翻 GPT-4o”的 70B 开源大模型 Reflection。一开始的质疑主要关于测试成绩，官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳…
应用
- 13
- 0
清源9月13日
Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B
科技媒体 The Decoder 昨日（9 月 10 日）报道，对比平台 Artificial Analysis 相关数据表明，Reflection 70B AI 模型在基准测试中的表现，实际上不及 Meta 的 LLaMA-3.1-70B。针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特・舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇…
应用
- 11
- 0
故渊9月11日
开源大模型新王 Reflection 70B 超越 GPT-4o：新技术可纠正自己幻觉，数学 99.2 分刷爆测试集
开源大模型王座突然易主，居然来自一家小创业团队，瞬间引爆业界。新模型名为 Reflection 70B，使用一种全新训练技术，让 AI 学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数 r 测试中，一开始它犯了和大多数模型一样的错误，但主动在反思标签中纠正了自己。在官方评测中，70B 模型全面超越最强开源 Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemin…
应用
- 35
- 0
清源9月6日