农夫 - AI在线

菲尔兹奖得主亲测 GPT-4o，经典过河难题破解失败

编辑：桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上，如今所有的 LLM 都失败了！几天前，菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀，去解决动物过河难题。在此，他给出了一个新的基准 —— 废话比率（crapness ratio），即 L

大模型测试题爆火，GPT-4 和 Claude3 都跪了，LeCun 转发：新 Benchmark

一项新的“大模型 Benchmark”在推特上爆火，LeCun 也点赞转发了！而且无论是 GPT-4 还是 Claude 3，面对它都如同被夺了魂，无法给出正确答案。难倒一众大模型的，是逻辑学当中经典的“动物过河”问题，有网友发现，大模型对此类问题表现得很不擅长。甚至有人观察到，几个不同的模型都给出了一致的（错误）答案，让人怀疑他们是不是用了相同的训练数据。针对这项测试，网友还定义了一个新的名词叫“劣效比率”（crapness ratio），让 LeCun 打趣说到，一项新的“Benchmark”诞生了。“模见模愁