运送 - AI在线

大模型测试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

一项新的“大模型 Benchmark”在推特上爆火，LeCun 也点赞转发了！而且无论是 GPT-4 还是 Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项测试，网友还定义了一个新的名词叫“劣效比率”（crapness ratio），让 LeCun 打趣说到，一项新的“Benchmark”诞生了。“模见模愁