过河
大模型测试题爆火,GPT-4 和 Claude3 都跪了,LeCun 转发:新 Benchmark
一项新的“大模型 Benchmark”在推特上爆火,LeCun 也点赞转发了!而且无论是 GPT-4 还是 Claude 3,面对它都如同被夺了魂,无法给出正确答案。难倒一众大模型的,是逻辑学当中经典的“动物过河”问题,有网友发现,大模型对此类问题表现得很不擅长。甚至有人观察到,几个不同的模型都给出了一致的(错误)答案,让人怀疑他们是不是用了相同的训练数据。针对这项测试,网友还定义了一个新的名词叫“劣效比率”(crapness ratio),让 LeCun 打趣说到,一项新的“Benchmark”诞生了。“模见模愁
6/24/2024 5:02:02 PM
清源
- 1
资讯热榜
标签云
人工智能
OpenAI
AIGC
ChatGPT
AI绘画
数据
机器人
DeepSeek
AI
谷歌
Midjourney
智能
大模型
学习
GPT
用户
微软
开源
AI创作
模型
图像
Meta
技术
论文
Stable Diffusion
马斯克
算法
生成式
蛋白质
芯片
Gemini
代码
计算
神经网络
研究
腾讯
Sora
AI设计
3D
GPU
英伟达
开发者
场景
机器学习
伟达
预测
华为
Transformer
模态
AI for Science
百度
驾驶
文本
AI视频
苹果
深度学习
搜索
神器推荐
Anthropic
算力
LLaMA
视频生成
干货合集
应用
2024
安全
科技
Copilot
xAI
特斯拉
字节跳动
具身智能
AI应用场景
写作
视觉
机器
人形机器人
语音
AGI
DeepMind