GPT4 Turbo
AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%
这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。
研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。
1/20/2025 4:24:35 PM
远洋
- 1
资讯热榜
DeepSeek 深夜再放大招:7B 参数人人可用的视觉多模态模型 Janus-Pro-7B 开源
通义千问 Qwen 2.5-Max 超大规模 MoE 模型发布:号称优于 Deepseek V3 等竞品,暂未开源
刷新AR/AI眼镜众筹纪录,CES上爆火的Halliday做对了什么?
DeepSeek:近期线上服务被大规模恶意攻击导致注册可能繁忙,已注册用户可正常登录
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看
AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发
一文读懂 OpenAI 最新 Operator
标签云
人工智能
AIGC
OpenAI
AI绘画
ChatGPT
机器人
数据
谷歌
智能
学习
大模型
Midjourney
GPT
用户
AI创作
微软
图像
开源
技术
Meta
论文
Stable Diffusion
生成式
算法
蛋白质
芯片
马斯克
计算
神经网络
Gemini
AI设计
代码
Sora
研究
腾讯
3D
开发者
场景
GPU
伟达
预测
模态
华为
英伟达
Transformer
机器学习
文本
驾驶
神器推荐
AI视频
深度学习
干货合集
LLaMA
算力
搜索
苹果
视频生成
2024
AI for Science
科技
百度
应用
AI应用场景
AI
Copilot
具身智能
写作
安全
特斯拉
机器
视觉
语音
字节跳动
AGI
架构
prompt
Claude
亚马逊
英特尔
Anthropic