基准测试
“人类终极考试”基准测试发布:顶级 AI 系统表现惨淡,回答准确率均未超 10%
非营利组织“人工智能安全中心”(CAIS)与提供数据标注和 AI 开发服务的公司 Scale AI 联合推出了一个名为“人类终极考试”(Humanity's Last Exam)的新型基准测试,旨在评估前沿 AI 系统的综合能力。这一测试因其极高的难度引起关注。
MLCommons 发布 PC AI 基准测试 MLPerf Client 首个公开版本 0.5
MLPerf Client 基准测试的诞生是 AMD、英特尔、微软、英伟达、高通和顶级 PC OEM 等利益相关方的合作成果。
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
该基准测试目前包括 4 种参数规模不一的模型,分别为 Phi-3.5-mini、Mistral-7B、Llama-3.1-8B 和 Llama-2-13B。
14 项任务测下来,GPT4V、Gemini等多模态大模型竟都没什么视觉感知能力?
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)已经在文本和图像等多模态内容处理方面表现出了空前的能力
- 1